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译 者 序 


在 大 数据 时 代 ,建立 一 个 网 站 或 应 用 程序 ,搜索 挖掘 与 分 析 功 能 是 必 备 的 。 本 书 从 分 
布 式 大 数据 搜索 .日 志 控 掘 、 可 视 化 .数据 监控 与 管理 等 多 个 角度 出 发 ,在 Elastic Stack 5 的 
基础 上 ,介绍 了 Elasticsearch、Logstash、Kibana、Beats、X-Pack 等 诸多 相关 组 件 。 原 著作 者 
Ravi Kumar Gupta 除 作为 计算 机 专业 技术 书籍 的 审 稿 人 外 ,也 是 开源 软件 社区 的 维护 者 ; 
原著 的 另 一 名 作者 Yuvraj Gupta 是 大 数据 实践 领域 的 技术 顾问 ,其 研究 领域 涉及 大 数据 、 
数据 分 析 ,数据 可 视 化 和 云 计 算 等 。 二 人 合作 完成 的 这 部 著作 ,从 面向 实践 的 角度 出 发 , 比 
较 全 面 地 介绍 了 Elastic Stack 5 的 实际 应 用 ;并 结合 一 些 项 目 实 例 ,介绍 了 大 数据 分 析 的 部 
分 关键 技术 。 我 们 认为 ,无 论 对 初学 者 还 是 有 经 验 的 开发 人 员 , 原 著 都 是 很 有 参考 价值 的 。 
它 不 仅 内 容 全 面 ,而 且 表 达 比 较 通俗 易 懂 ,实践 指导 性 较 强 。 原 著 强 调 实践 .面向 初学 者 , 通 
过 实战 讲解 的 方式 ,可 让 读者 更 好 地 了 解 相关 组 件 的 应 用 。 通 过 翻译 这 本 书 ,我们 也 从 中 收 
获 很 多 ,受益 颇 丰 。 

本 书 由 高 凯 、 岳 重阳 、 苗 雪 立 、 张 思 琪 合作 翻译 。 其 中 ,高 凯 完 成 了 第 1.3、7 章 , 岳 重阳 
完成 了 第 5.9、10、11、12 章 , 苗 雪 立 完成 了 第 4.6 章 , 张 思 琪 完成 了 第 2、8 章 。 最 后 ,由 高 凯 
统 稿 。 本 书 翻译 过 程 中 得 到 了 多 方面 的 支持 与 帮助 ; 何 晓 艺 、. 张 姗 姗 、. 乔 天 宏 、 刘 多 星 、 高 成 
亮 , 毛 雨 欣 , 梳 颖 杰 、 韩 佳 , 谢 宇 翔 . 李 明 奇 . 伐 雪 飞 、 杨 聪 聪 、 江 跃 华 等 均 提供 了 协助 。 

尽管 本 书 的 译 者 在 大 数据 搜索 与 挖掘 及 可 视 化 管理 方面 有 一 定 的 经 验 , 也 出 版 过 相关 
的 著作 ,教材 等 ,但 毕竟 水 平 有 限 ,译文 中 难免 有 不 足 和 有 待 商 榨 之 处 , 敬 请 读者 批评 指正 。 


译 者 


关于 本 书 作者 


本 书 作者 Ravi Kumar Gupta 是 计算 机 专业 技术 书籍 审 稿 人 、 开 源 软件 社区 维护 者 。 他 
于 印度 彼 拉 尼 邦 的 伯 拉 科技 学 院 (Birla Institute of Technology and Science, BITS) 获 得 软 
件 系统 硕士 学 位 ,于 印度 拉 贾 斯 坦 邦 斋 浦 尔 (Jaipur) 的 LNMIIT(The LNM Institute of 
Information Technology) 获 学 士 学 位 ,在 技术 上 擅长 门户 网 站 研发 。 

他 目前 就 职 于 Azilen Technologies 公司 , 任 技术 架构 师 和 项 目 经 理 , 曾 担任 CIGNEX 
Datamatics 的 首席 技术 顾问 了 。 他 曾 是 开源 组 织 TCS@ 的 核心 成 员 ,从 事 开 源 软件 社区 管 
理 和 其 他 的 用 户 界面 技术 研发 。 在 其 职业 生涯 中 ,他 致力 于 使 用 最 新 技术 构建 企业 级 解决 
方案 ,并 注重 用 户 界 面 和 开源 工具 的 使 用 。 

他 喜爱 写作 学习, 热衷 于 讨论 IT 新 技术 。 大 学 期 间 他 的 研究 领域 涉及 基于 疏 虫 的 搜 
索引 擎 的 研发 ,是 技术 爱好 者 。 他 也 是 由 Packt 出 版 社 出 版 的 TestDriven JavaScript 
Development 的 作者 之 一 ,是 软件 社区 论坛 的 活跃 成 员 。 他 目前 维护 其 博客 http:/ /techdec. 
blogspot. in, 并 经 常 在 上 面 发 表 计算 机 相关 技术 的 系列 文章 。 

他 还 维护 着 TCS 和 CIGNEX 软件 社区 (Liferay 5. x 和 6. x 版 本 ), 同 时 也 是 Packt 出 
版 社 出 版 的 Learning Booltstrap 的 审 校 人 。 其 联系 方式 如 下 : 

Skype: kravigupta; Twitter: (@kravigupta; LinkedIn: https://in. linkedin. com/ 


in/kravigupta 


“感谢 我 的 妻子 Kriti。 正 是 她 的 鼓励 和 支持 , 伴 我 度 过 了 本 书写 作 的 艰辛 时 光 。 感 谢 
我 的 妻子 .我 的 家 庭 , 特 别 是 我 的 天 父母 ,他 们 为 我 提供 了 很 多 帮助 。 更 要 感谢 本 书 合 著者 
Yuvraj。 作 为 好 朋友 ,他 为 我 提供 了 很 好 的 支持 和 理解 ,没有 他 ,本 书 是 不 可 能 完成 的 。 我 
还 要 感谢 Packt 出 版 社 、 审 校 人 、 编 辑 团队 的 同事 们 。 感 谢 你 们 ! 谢谢 1” 


本 书 的 另 一 位 作者 Yuvraj Gupta 的 研究 领域 涉及 大 数据 、 数 据 分 析 、 数 据 可 视 化 和 云 
计算 。 他 是 大 数据 实践 领域 的 技术 顾问 ,喜爱 各 种 社交 平台 ,是 小 工具 插件 的 开发 与 爱好 
者 。 他 喜爱 美食 .运动 .各 种 影视 剧 , 也 一 直 跟 踪 最 近 技 术 发 展 动 态 。 他 在 Packt 出 版 社 出 
版 了 Kibana Essentials 。 其 联系 方式 如 下 : 


E-mail: gupta. yuvraj@gmail. com;LinkedIn: www. linkedin. com/in/ guptayuvraj 


@ 译 者 注 : http://www. cignex. com/。 
@ 译 者 注 : https://sourceforge. net/projects/opentcsVfiles/?source 一 navbar。 
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“本 书写 作 过 程 中 ,感谢 我 的 家 人 和 朋友 提供 的 支持 和 鼓励 。 感 谢 本 书 审 校 人 以 及 
Packt 出 版 社 为 本 书 做 出 奉献 的 全 体 同 事 , 没 有 你 们 的 帮助 ,本 书 是 不 可 能 出 版 的 。 感 谢 所 
有 直接 或 间接 为 我 写作 提供 支持 的 同事 。 同 时 ,感谢 我 的 老师 .教授 、 导 师 、 学 院 、 大 学 ,你 们 
培育 并 传授 给 我 知识 。 感 谢 我 的 合作 者 Ravi。 没 有 这 些 帮 助 、 信 任 和 支持 ,本 书 是 不 可 能 


关于 本 书 审 校 人 


Marcelo Ochoa 就 职 于 Universidad Nacional del Centro de la Provincia de Buenos 
Aires 系统 实验 室 , 是 Scotas. com( 这 是 一 家 使 用 Apache Solr 和 Oracle 的 实时 搜索 公司 ) 
的 CTO。 平时 , 除 完 成 大 学 中 的 工作 ,他 也 从 事 和 Oracle 及 大 数据 技术 相关 的 工作 ,做 过 
一 些 和 Oracle 相关 的 工作 (如 Oracle 手册 的 翻译 .CBT 多 媒体 等 ) ,其 技术 背景 为 数据 库 、 
网 络 .互联 网 .Java 技术 等 。 在 XML 领域 ,他 以 Apache Cocoon 工程 的 DB Generator 的 研 
发 者 而 著称 。 他 也 在 开源 项 目 DBPrism 和 DBPrism CMS (这 是 一 个 由 Oracle JVM 
Directory 实现 的 基于 Lucene-Oracle 的 集成 项 目 ) 中 提供 服务 ,在 网 站 https://restlet. 
com/project 有 工作 经 历 。 他 在 项 目 中 主要 从 事 Oracle XDB Restlet Adapter 的 开发 工作 ， 
这 是 Oracle JVM 中 专注 于 REST 的 Web 服务 的 一 个 蔡 代 品 。 从 2006 年 起 ,他 成 为 Oracle 
ACE program 中 的 一 员 。Oracle ACE program 在 Oracle 社区 享有 崇高 声望 ,拥有 众多 热 
情 的 支持 者 和 倡导 者 。 他 也 是 ACES 在 Oracle 技术 和 应 用 社区 的 倡导 者 。 作 为 合 著者 ,他 
参与 编写 了 由 Digital 出 版 社 出 版 的 Oracle Database Programming using Java and Web 
Services 和 由 Wrox 出 版 社 出 版 的 Professional XML Databases。 他 还 是 由 Packt 出 版 社 
出 版 的 几 部 技术 著作 ,如 Apache Solr 4 Cookbook ,ElasticSearch Server 等 的 审 校 人 。 


www. packtpub. com 


要 获取 本 书 相 关 程 序 文件 ,可 登录 www. packtpub. com。 

你 知道 吗 ? Packt 出 版 社 为 出 版 的 每 一 部 书籍 提供 PDF 、ePub 格式 的 电子 书 。 可 以 登 
录 www. packtpub. com 更 新 、 下 载 电子 书 ,并 可 享受 电子 书 折扣 。 如 果 需 要 ,请 联系 我 们 
service(@ packtpub. com 。 

在 www. packtpub. com, 也 能 阅读 一 些 免 费 的 技术 资料 。 注 册 成 为 自由 的 信息 提供 
者 ,将 会 获得 更 高 折扣 并 获得 由 Packt 出 版 社 提供 的 纸 质 书 和 电子 书 。 


A Mapt 


https://www. packtpub. com/ mapt 

访问 Mapt 网 站 ,可 获取 更 多 相关 内 容 。 该 网 站 提供 所 有 Packt 出 版 社 的 书籍 、 视 频 课 
程 和 在 工业 界 领先 的 工具 软件 等 。 这 些 能 帮助 你 规划 未 来 的 个 人 发 展 , 并 获得 职业 提升 的 
机 会 。 

可 以 通过 浏览 器 访问 该 网 站 ,复制 .粘贴 .打印 ,收藏 由 Packt 出 版 社 发 行 的 电子 书 。 


致 消费 者 


感谢 购买 由 Packt 出 版 社 出 版 的 图 书 。 在 Packt 出 版 社 ,保证 图 书 质量 是 一 切 编辑 活 
动 的 核心 。 为 了 帮助 我 们 提高 图 书 质量 , 诚 邀 您 访问 本 书 在 亚马逊 的 网 站 : https://www. 
amazon. com/dp/1786460017, 并 留 下 您 宝贵 的 意见 及 建议 。 

如 果 有 意 成 为 审 稿 人 ,可 发 送 电子 邮件 到 customerreviews@packtpub. com。 为 表示 感 
谢 ,将 会 赠送 您 免费 的 电子 书 和 视频 资料 。 

让 我 们 携手 努力 ,共同 提高 图 书 质量 ! 








如 果 数 据 不 能 有 助 于 做 出 决定 、 提 升 目前 的 系统 性 能 ,即使 是 结构 化 的 
数据 , 那 也 是 无 用 的 (更 何况 非 结构 化 的 数据 了 )。 如 果 对 数据 感 兴趣 ,或 者 
需要 处 理 用 户 各 种 类 型 的 日 志 数 据 , 或 者 需要 设计 高 可 扩展 性 的 分 析 系 统 ， 
或 者 需要 管理 日 志 并 进行 实时 的 数据 分 析 , 本 书 可 提供 “一 站 式 ” 解 决 方案 。 
通过 集成 Elasticsearch、Logstash、Beats 、Kibana 等 多 个 流行 软件 ,ELK 
Stack 已 经 进化 为 Elastic Stack, 它 能 以 近乎 实时 的 高 效 处 理 方式 ,处 理 几 乎 
各 种 类 型 的 结构 化 和 非 结 构 化 的 数据 。 

本 书 首先 介绍 有 关 Elastic Stack 的 基础 知识 ,之 后 会 涉及 一 些 更 复杂 和 
高 级 的 内 容 。 我 们 将 帮助 你 借助 Elastic Stack ,应 对 数据 分 析 的 挑战 ,并 以 
内 网 应 用 环境 为 例 , 带 你 从 实战 角度 理解 Elastic Stack 组 件 的 使 用 。 通 过 学 
习 , 你 将 会 了 解 日 志 分 析 和 可 视 化 的 高 级 技术 。 另 外 ,也 将 以 实例 的 方式 介 
绍 一 些 新 特性 一 一 如 Beats 和 X-Pack 。 

最 终 ,你 将 会 看 到 如 何 使 用 Elastic Stack 解决 现实 世界 中 的 实际 问题 。 
同时 ,本 书 也 将 会 介绍 一 些 在 应 用 Elastic Stack 中 需要 注意 的 问题 。 


本 书包 含 哪些 内 容 ? 


第 1 章 ,Elastic Stack 概述 。 通 过 搭建 Elastic Stack 的 各 种 组 件 ,介绍 
从 ELK 到 Elastic Stack 的 转化 。 

第 2 章 , 使 用 Elasticsearch。 介 绍 如 何在 工程 项 目 中 开始 使 用 
Elasticsearch ,介绍 Elasticsearch 工作 机 制 , 并 介绍 各 种 Elasticsearch API 
和 聚合 Aggregations 的 用 法 。 

第 3 章 ,Logstash 及 其 插件 的 使 用 。 内 容 涉 及 Logstash 简介 、Logstash 
结构 、 各 种 插件 的 用 法 示例 。 最 后 ,介绍 一 个 有 关 Logstash 配置 文件 以 及 日 
志 解 析 的 实例 。 

第 4 章 ,Kibana 界面 设计 。 介 绍 各 种 Kibana 界面 的 用 法 ,并 通过 一 些 
例子 来 演示 如 何 将 各 种 界面 相 结 合并 设计 面板 可 视 化 。 

第 5 章 , 使 用 Beats。 介 绍 Beats, 讲 述 Beats 和 Logstash 的 不 同 之 处 ， 
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并 介绍 各 种 类 型 的 Beats 的 功能 以 及 设置 方法 ,最 后 介绍 在 Elastic Stack 中 如 何 使 用 
Beats 。 

第 6 章 ,Elastic Stack 实战 。 介 绍 在 局 域 网 环境 下 实际 使 用 Elastic Stack 的 方法 ,并 通 
过 例子 解释 如 何 使 用 Elastic Stack 组 件 解决 实际 的 具体 问题 。 

第 7 章 , 个 性 化 配置 Elastic Stack。 介 绍 如 何 扩展 Elastic Stack 中 的 各 种 组 件 , 并 介绍 
定制 个 性 化 组 件 的 方法 。 

第 8 章 ,Elasticsearch API。 通 过 介绍 各 种 Elasticsearch API 的 用 法 ,使 读者 理解 
Elasticsearch 诸 模 块 的 工作 机 制 ;并 介绍 节点 、 组 件 发 现 策略 及 使 用 Java 客户 端 实现 对 
Elasticsearch 的 各 种 操作 。 

第 9 章 ,X-Pack 插件 中 的 Security 与 Monitoring 组 件 。 内 容 涉及 X-Pack 简介 与 安装 、 
安全 和 监控 等 ,本 章 还 涉及 Shield、Marvel、Profiler 相关 功能 的 使 用 。 

第 10 章 , X-Pack 插件 中 的 Alerting、Graph 和 Reporting 组 件 。 本章 还 介绍 了 
Watcher .Graph 、Reporting 等 组 件 的 使 用 功能、 特性 等 。 

第 11 章 , 最 佳 实践 范例 。 本 章 将 分 成 多 个 小 节 , 使 读者 理解 为 什么 需要 遵循 最 佳 实践 
标准 。 

第 12 章 ,案例 分 析 一 一 Meetup。 通 过 扩展 Logstash 的 功能 .生成 新 的 功能 插件 等 方 
法 ,使 读者 加 深 对 相关 问题 的 理解 ,学 习 如 何 应 用 Elastic Stack 组 件 来 分 析 和 处 理 端 到 端的 
Meetup 数据 ,展示 Elastic Stack 在 数据 分 析 方 面 的 强大 功能 。 


需要 下 载 什么 软件 工具 ? 


为 了 能 运行 书 中 的 示例 ,下 表 列 出 了 可 能 需要 的 软件 和 工具 。 通 过 表 中 列 出 的 链接 ,可 
下 载 相应 章节 需要 的 软件 。 
































软 件 版 本 链 接 
Elasticsearch | 5.1.1 https://www. elastic. co/downloads/past-releases/elasticsearch-5-1-1 
Logstash Sl https://www. elastic. co/downloads/past-releases/logstash-5-1-1 
Kibana Sl https://www. elastic. co/downloads/past-releases/kibana-5-1-1 
Filebeat Ss https://www. elastic. co/downloads/past-releases/filebeat-5-1-1 
Packetbeat | https://www. elastic. co/downloads/past-releases/packetbeat-5-1-1 
Winlogbeat Sh https://www. elastic. co/downloads/past-releases/ winlogbeat-5-1-1 
Metricbeat [| https://www. elastic. co/downloads/past-releases/metricbeat-5-1-1 
Elasticsearch | 1.4.1 https://www. elastic. co/downloads/past-releases/elasticsearch-1-4-0 
































前 言 
续 表 
软 件 版 本 链 接 
ieiay 6.2CEGA4 https: //sourceforge. et/projects/ povel/ ites/ LE Portal/6. 2. 3 GA4/ 
liferay-portal-tomcat-6. 2-ce-ga4-20150416163831865. zip/downloadO 
Java 3, 天 http://www. oracle. com/ technetwork/java/javase/ downloads/index. html 
Elasticray lj https://web. liferay. com/marketplace/-/mp/application/ 41044606 
Go pW 外 淘 https://golang. org/dl 
Ruby 2.4.0 https://www. ruby-lang. org/ en 
NodeJS 6.9.0 https://nodejs. org/en/download/releases/ 
Gradle 学 :3 汪 https://gradle. org/gradle-download 
Python 2.7 10 https://www. python. org 


Virtualenv 


cookiecutter 





谁 适合 阅读 本 书 ? 


如 果 曾 经 听 说 过 ELK Stack, 想 学 习 有 关 它 的 最 新 发 展 , 了 解 它 如 何 演化 成 为 Elastic 
Stack ,那么 这 本 书 就 是 为 你 而 准备 的 ;如 果 正 在 进行 数据 分 析 ,或 计划 通过 可 视 化 技术 来 展 
现 数据 ,本 书 也 适合 你 。 


惯用 法 与 记号 说 明 


为 区 分 不 同 种 类 的 信息 ,本 书 采 用 了 不 同 风格 的 文本 。 这 里 列 出 一 些 例子 并 进行 说 明 。 
文本 中 的 代码 ,数据 表 名 字 、 文 件 夹 名 .文件 名 文件 扩展 名 .路径 名 、 虚 拟 的 URL、 用 户 
输入 .Twitter 句柄 等 以 如 下 方式 展示 。 例 如 ,下 面 这 些 代 码 读 取 数据 并 赋值 给 
BeautifulSoup 函数 。 





https://virtualenv. pypa. io/en/stable/ 


https://github. com/audreyr/cookiecutter 


它 能 帮助 你 了 解 Elastic Stack 中 的 组 件 是 如 何 发 挥 作用 的 。 


# import packages into the project 


from bs4 import BeautifulSoup 


from urllib.request import urlopen 


import pandas as pd 


当 需 要 提醒 注意 某 部 分 代码 时 ,以 黑体 显示 。 
<head> 


四 译 者 注 : 原文 中 ,该 URL 中 的 空格 是 用 %20 表示 的 。 这 里 直接 以 空格 表示 。 
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<script src="d3.js" charset="utf-8"></script> 

<meta charset="utf-8"> 

<meta name="viewport" content="width=device-width"> 
<title>JS Bin</title> 

</head> 


基于 命令 行 的 输入 或 输出 ,将 按 如 下 方式 展现 : 


C:\Python34\Scripts>pip install -upgrade pip 

C:\Python34\Scripts>pip install pandas 

新 闻 和 重要 词汇 以 黑体 显示 。 在 屏幕 .菜单 或 对 话 框 中 显示 的 内 容 , 将 采用 如 下 方式 展 
示 。 例 如 ,为 了 下 载 新 的 模块 ,将 在 Files | Settings| Project Name | Project Interpreter 菜单 选 
项 中 完成 相应 的 操作 。 





食管 告 或 重要 的 说 明 将 出 现在 这 种 框 中 。 


全 提示 和 操作 技巧 将 出 现在 这 种 框 中 。 











读者 意见 反馈 


欢迎 读者 提出 反馈 意见 。 请 告诉 我 们 ,针对 本 书 有 什么 意见 ? 喜欢 什么 ? 不 喜欢 什么 ? 
读者 的 意见 反馈 对 作者 来 说 是 很 重要 的 ,可 便于 我 们 进一步 修改 完善 内 容 。 可 以 发 送 电 子 
邮件 到 feedback@packtpub. com。 请 在 邮件 主题 中 注 明 本 书 书 名 。 如 果 您 是 某 一 个 领域 
的 专家 并 且 愿 意 撰写 相关 内 容 的 图 书 , 请 参阅 Packt 出 版 社 如 下 网 站 中 的 “作者 须知 ”: 


www. packtpub. com/authors。 


读者 服务 
作为 Packt 出 版 社 尊贵 的 读者 ,从 购买 本 书 开始 ,您 将 享受 Packt 出 版 社 提供 的 各 种 服务 。 
下 载 示例 代码 


可 以 在 Packt 出 版 社 提供 的 http://www. packtpub. com 网 站 ,用 您 的 账号 下 载 本 书 的 
示例 代码 。 不 论 在 哪里 购书 , 均 可 访问 http://www. packtpub. com/support。 完 成 注册 
后 ,我 们 会 通过 电子 邮件 给 您 发 送 相关 文件 。 

按照 如 下 步骤 下 载 代码 文件 : 

(1) 用 您 的 电子 邮件 地 址 和 设 定 的 密码 访问 我 们 的 网 站 ,完成 用 户 登 录 或 新 用 户 注册 。 

(2) 定位 到 页 面 顶 部 的 SUPPORT 标签 页 。 





(3) 单 击 Code Downloads & Errata。 

(4) 在 搜索 框 中 输入 书 名 。 

(5) 选择 要 下 载 代码 文件 的 书 名 。 

(6) 从 下 拉 菜 单 中 选择 所 购买 的 图 书 。 

(7) 单 击 Code Download。 

完成 下 载 后 ,确保 计算 机 中 有 如 下 的 新 版 解压 缩 软件 。 

。 Windows 环境 : WinRAR/7-Zip; 

。 Mac 环境 : Zipeg/iZip/ UnRarX; 

。 Linux 环境 : 7-Zip/PeaZip。 

本 书 提 供 的 代码 文件 也 可 从 Github 下 载 : https://github. com/PacktPublishing/ 
Mastering-Elastic-Stack。 其 他 更 丰富 的 相关 资源 和 视频 也 可 访问 : https://github. com/ 
PacktPublishing/。 去 试 试 吧 ! 
勘误 表 

虽然 我 们 已 经 尽力 确保 书 中 内 容 的 准确 性 ,但 错误 可 能 仍 无 法 完全 避免 。 如 果 在 书 中 
文字 或 代码 中 发 现 了 错误 ,请 告诉 我 们 ,我 们 将 不 胜 感激 。 这 不 仅 能 避免 错误 给 读者 带 来 疑 
惑 ,也 能 帮助 我 们 提高 图 书 再 版 的 质量 。 如 果 发 现 书 中 有 错误 ,请 访问 http://www. 
packtpub. com/ submit-errata, 选 择 该 书 , 单 击 Errata Submission Form 链接 ,输入 有 关 勘 误 
的 信息 。 一 旦 确认 ,提交 的 勘误 信息 将 会 更 新 到 我 们 的 网 站 ,或 者 追加 到 现 有 的 勘误 表 中 。 

要 查阅 早期 提交 的 勘误 信息 .可 访问 https://www. packtpub. com/books/content/ 
support。 在 搜索 框 中 输入 书 名 ,会 出 现 相 关 的 勘误 信息 。 


著作 权 


在 各 种 媒体 上 ,通过 互联 网 对 著作 权 侵权 是 目前 经 常 发 生 的 问题 。 在 Packt 出 版 社 ,我 
们 非常 注重 对 著作 版 权 的 保护 。 如 果 在 互联 网 上 见 到 对 我 们 作品 的 非法 获取 、 复 制 等 各 类 
盗版 行为 ,请 提供 给 我 们 有 关 的 地 址 、 网 站 等 信息 ,以 便 进行 处 理 。 

请 联系 我 们 : copyright@packtpub. com, 并 请 提供 疑似 盗版 的 相关 链接 。 

非常 感谢 您 在 保护 著作 权 方 面 为 我 们 提供 的 帮助 ,以 便 我 们 能 为 您 带 来 更 多 有 价值 的 
内 容 。 


其 他 问题 
如 果 您 有 关于 本 书 的 其 他 任何 问题 ,可 以 通过 如 下 电子 邮件 联系 我 们 questions @ 
packtpub. com。 我 们 将 竭诚 为 您 提供 帮助 。 
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Elastic Stack 概述 


人 们 很 容易 读 取 一 个 几 兆 到 几 百 兆 的 日 志文 件 , 因 为 数据 库 完 全 有 能 力 处 理 这 种 体 量 
的 数据 或 文件 。 然 而 ,如 今 动 辑 就 需要 处 理 几 个 “T” 几 个 "P? 级 别 的 数据 ,这 种 大 数据 的 发 
展 是 大 势 所 趋 且 在 未 来 发 展 速度 很 快 。 在 大 数据 需求 的 推动 下 ,常规 的 文本 编辑 器 或 字 处 
理 软件 工具 往往 难以 应 对 (它们 往往 不 能 处 理 这 样 的 大 数据 集 ) ,但 对 原始 大 数据 的 分 析 , 能 
提高 我 们 对 数据 的 洞察 力 。 我 们 需要 对 大 数据 进行 有 效 处 理 的 工具 。 接 下 来 ,将 会 学 习 如 
何 对 海量 日 志文 件 进行 管理 ,或 以 某 种 合适 的 方式 对 海量 数据 进行 索引 、 分 析 。 使 用 
Google, 能 搜索 到 ELK Stack2 一 一 Elasticsearch 可 以 管理 数据 ,Logstash 可 以 读 取 不 同 来 
源 的 日 志 数 据 ,Kibana 能 够 可 视 化 这 些 数据 。 

最 近 ,ELK 已 经 演化 为 Elastic Stack。 本 章 将 带 你 了 解 并 搭建 Elastic Stack 环境 。 本 
章 主 要 内 容 如 下 : 

。 ELK Stack 简介 ; 

。 Elastic Stack 的 诞生 ; 

。 哪些 组 织 在 用 Stack? 

。 Stack 的 组 成 ; 

。 设置 Elastic Stack; 

。 了 解 X-Pack。 


1.1 ELK Stack 简介 


ELK Stack 起 源 于 Shay Banon 以 Compass 为 基础 研发 的 如 今 名 为 Elasticsearch 的 开 
源 工程 工具 。 现 在 ,Elasticsearch 已 经 成 为 一 款 非 常 流行 的 开源 的 数据 库 搜索 引擎 产品 。 
从 这 之 后 ,在 分 布 式 工作 模型 的 基础 上 研发 出 了 Kibana, 它 可 用 于 可 视 化 Elasticsearch 中 
索引 的 数据 。 在 这 之 前 ,我 们 往往 使 用 Rivers( 它 提供 了 一 种 特殊 的 数据 输入 机 制 ) ,把 数据 


@ 译 者 注 : ELK 分 别 源 自 Elasticsearch、Logstash、Kibana 的 首 字母 。 


人 2 ,， 精通 Elastic Stack 





同步 到 Elasticsearch 中 。 
然而 , 随 着 这 种 方法 的 应 用 日 益 广泛 ,我 们 需要 一 个 工具 。 借 助 这 个 工具 ,可 灵活 地 把 
数据 插入 到 Elasticsearch 中 ,而 且 能 便利 地 执行 各 种 数据 转换 操作 ,如 对 非 结 构 化 数据 的 
结构 化 处 理 , 完 成 对 数据 处 理 的 有 效 控制 。 在 这 种 需求 前 提 下 ,Logstash 诞生 了 。 它 也 被 归 
并 到 Stack 中 。 至 此 ,Elasticsearch、Logstash、Kibana 这 三 个 工具 统称 为 ELK Stack。 
下 图 是 基于 ELK Stack 的 数据 处 理 流程 。 


本 一 ee Ei 
Kibana 


从 上 图 中 我 们 可 以 看 出 ,数据 是 由 Logstash 读 取 的 ,然后 在 Elasticsearch 中 完成 索引 。 
最 后 ,我 们 能 利用 Kibana, 从 Elasticsearch 中 读 取 索引 数据 并 以 图 表 形式 可 视 化 数据 。 下 
面 让 我 们 来 分 别 理解 这 些 组 件 ,以 及 它们 在 Stack 中 所 起 的 作用 。 





1.1.1 Logstash 


前 面 已 经 提 到 ,在 ELK Stack 出 现 之 前 ,Rivers 被 用 于 将 数据 同步 到 Elasticsearch 中 。 
对 于 ELK Stack 来 说 ,Logstash 是 所 有 类 型 的 数据 的 入 口 点 。 相 比 于 Rivers,Logstash 拥 
有 非常 多 的 Input 输入 数据 类 型 的 插件 ,这 些 Input 插件 可 用 于 从 大 量 不 同 来 源 的 信息 中 
读 取 数据 ;同时 , 它 也 拥有 非常 多 的 Output 输出 数据 类 型 插件 ,而 这 些 Output 插件 可 用 于 
把 数据 提交 到 各 种 不 同 的 目的 地 一 一 其 中 的 一 种 插件 就 是 用 于 把 数据 传输 到 Elasticsearch 
中 去 。 

Logstash 流行 之 后 ,由 于 集群 稳定 以 及 性 能 等 方面 的 原因 , Logstash 最 终 取代 了 
Rivers 插件 。 

Logstash 不 仅 用 于 简单 地 把 数据 从 一 个 地 方 传送 到 另 一 个 地 方 。 它 能 帮助 我 们 搜集 
原始 数据 ,修改 /过 滤 数 据 并 将 其 转换 成 某 种 有 含义 的 数据 ,完成 数据 的 格式 化 和 重新 组 织 
数据 等 。 被 Logstash 加 工 后 的 数据 可 提交 给 Elasticsearch 进行 处 理 。 如 果 没 有 其 他 可 用 
的 插件 来 完成 从 某 种 特殊 的 数据 源 中 读 取 数 据 , 将 数据 写 到 某 种 目的 地 ,按照 你 自己 设 定好 
的 方式 修改 数据 等 ,那么 使 用 Logstash 可 以 完成 上 述 功能 , 且 可 足够 灵活 地 重 写 相 应 的 数 
据 处 理 插件 。 

简 言 之 ,Logstash 是 一 个 高 灵活 度 的 .具有 丰富 插件 的 、 能 从 所 选择 的 某 个 位 置 源 读 取 
数据 的 一 种 开源 工具 软件 。 它 能 按 所 定义 的 配置 信息 来 规范 化 数据 ,并 根据 需要 将 其 发 送 
到 指定 的 目的 地 。 

我 们 将 会 在 第 3 章 中 学 习 Logstash 及 其 组 件 , 在 第 7 章 中 学 习 个 性 化 定制 Elastic 
Stack 等 内 容 。 
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1.1.2 Elasticsearch 


Logstash 读 取 的 数据 可 输出 到 Elasticsearch 中 ,完成 数据 的 索引 。Elasticsearch 不 仅 
用 于 数据 的 索引 ,还 是 一 个 全 文 检索 的 搜索 引擎 ,具有 高 可 扩展 性 ,也 能 提供 分 布 式 系统 的 
很 多 功能 。Elasticsearch 以 索引 的 形式 管理 并 维护 数据 ,并 通过 相应 的 API 实现 对 相关 数 
据 的 查询 .聚合 分 析 等 服务 。Elasticsearch 构建 在 Lucene 上 ,也 能 提供 很 多 Lucene 所 具有 
的 功能 。 

我 们 将 在 第 2 章 走 进 Elasticsearch .第 7 章 个 性 化 定制 Elastic Stack、 第 8 章 Elasticsearch 
API 中 学 习 更 多 关于 Elasticsearch 的 内 容 。 


1.1.3 Kibana 


Kibana 使 用 Elasticsearch 提供 的 API 来 读 取 /检索 存放 在 Elasticsearch 中 的 索引 数 
据 , 并 以 图 表 等 形式 对 这 些 数据 进行 可 视 化 分 析 。Kibana 是 一 种 Web 应 用 程序 ,能 提供 高 
度 可 配置 的 用 户 接口 ,能 查询 数据 ,生成 大 量 用 于 可 视 化 的 图 表 及 分 析 存 储 的 数据 。 

我 们 将 在 第 4 章 学习 Kibana 界面 。 

在 上 述 性 能 强劲 的 ELK Stack 出 现 之 后 , 随 着 时 间 的 推移 ,一 些 重要 且 复 杂 的 现实 需 
求 也 出 现 了 ,比如 认证 (authentication) ,安全 (security) ,通知 (notification) 等 。 这 种 现实 需 
求 的 不 断 增长 也 导致 了 一 些 其 他 工具 的 陆续 出 现 , 如 Watcher( 如 果 数 据 发 生 改变 , 它 能 提 
供 警告 和 通知 ) .Shield( 提 供 安 全 集群 的 认证 ,授权 等 )、Marvel( 监控 集群 的 统计 特征 ) 、ES- 


Hadoop 、Curator、Graph 等 。 


1.2” Elastic Stack 的 诞生 


起 初 ,所 有 读 取 数据 的 工作 都 是 由 Logstash 完成 的 ,但 是 这 是 一 种 资源 消耗 ,因为 
Logstash 需要 运行 在 Java 虚拟 机 上 , 它 会 消耗 大 量 内 存 。 软 件 研 发 社区 认为 需要 提高 其 性 
能 ,并 使 用 管道 (pipeline) 处 理 机 制 一 一 一 种 友好 且 轻 量 级 的 方式 来 处 理 资源 。 诞 生 于 
2015 年 的 Packetbeat 工程 能 有 效 分 析 使 用 不 同 网 络 协议 的 数据 包 , 解 析 数 据 并 将 其 输出 至 
Elasticsearch。 这 是 一 种 很 自然 的 轻 量 级 研发 理念 ,由 此 一 种 新 概念 ( 即 Beats) 诞 生 了 。 
Beats 是 由 Go 编程 语言 编写 的 。 现 在 的 ELK 已 不 仅 包 括 之 前 的 Elasticsearch、 Logstash、 
Kibana 成 员 ,Beats 也 加 入 到 ELK Stack 家 族 中 .并 成 为 其 中 的 一 个 重要 组 件 。 

数据 处 理 管道 的 示意 图 如 下 图 所 示 。 从 该 图 中 可 以 看 出 ,Beats 用 于 读 取 、 解 析 并 将 数 
据 输 出 到 Elasticsearch 或 Logstash 中 。 不 同 的 是 , 它 是 一 种 轻 量 级 的 .服务 于 某 种 特殊 用 
途 的 代理 Agents( 它 可 以 是 Metricbeat、Filebeat、Packetbeat 等 ) 。 它 们 都 是 由 Elastic 开发 
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团队 提供 的 。 除 此 之 外 ,在 开发 社区 中 也 有 为 数 众多 的 其 他 Beats。 如 果 有 某 种 特殊 需求 ， 
就 可 以 通过 使 用 libbeat 库 ,自行 开发 满足 个 性 化 需求 的 Beats。 
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简 言 之 , Beats 能 以 一 种 轻 量 代理 Agents 的 方式 ,把 数据 输出 到 Logstash 或 者 
Elasticsearch 中 。 如 果 需 要 ,还 可 以 通过 使 用 libbeat 库 的 方式 , 订 制 满足 个 性 化 需求 的 专 
属 Beats。 

我 们 将 在 第 5 章 中 学 习 使 用 Beats 的 知识 。 

从 最 初 被 称 为 ELK Stack 的 Elasticsearch、Logstash、Kibana, 到 Beats 加 入 大 家 族 后 
改称 为 Elastic Stack ,其实 Elastic Stack 涵盖 的 内 容 还 不 止 这 些 。Elastic Stack 的 起 始 版 本 
号 是 5. 0. 0, 这 个 版 本 同时 适用 于 Elastic Stack 中 的 所 有 组 件 。 

该 版 本 及 其 发 行 的 方法 不 仅 适用 于 Elastic Stack, 对 Elastic 家 族 中 的 其 他 工具 也 有 效 。 
但 由 于 工具 众多 ,所 以 在 软件 一 致 性 方面 存在 协调 性 问题 。 因 为 每 个 工具 都 有 其 自己 的 版 
本 号 ,并且 可 能 由 于 各 个 版 本 之 间 的 不 兼容 而 导致 一 些 问 题 的 出 现 , 所 以 为 解决 上 述 问题 ， 
所 有 工具 将 一 并 构建 .测试 和 发 布 。 

在 产生 数据 管道 的 过 程 中 ,所 有 这 些 组 件 都 发 挥 了 重要 作用 : Beats 和 Logstash 用 于 
搜集 ,解析 ,传输 数据 ;Elasticsearch 负责 对 数据 的 索引 了 ,而 这 些 索引 最 后 会 被 Kibana 用 于 
数据 的 可 视 化 。 在 基于 Elastic Stack 的 数据 处 理 管道 中 ,其 他 工具 则 用 于 增加 系统 安全 性 ， 
提供 通知 ,完成 性 能 监控 ,完成 设置 等 。 
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1.3 谁 在 使 用 Elastic Stack? 


在 过 去 的 几 年 间 , 基 于 Elastic Stack 的 应 用 在 快速 增长 。 本 节 将 介绍 Elastic Stack 的 
应 用 案例 ,帮助 读者 了 解 Elastic Stack 如 何 助 力 软 件 的 研发 。 


四 译 者 注 : Elasticsearch 还 负责 优化 索引 ,完成 对 索引 数据 的 检索 。 
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1.3.1 Salesforce 


Salesforce 研发 了 一 个 名 为 ELF(Event Log Files) 的 新 插件 ,用 于 搜集 Salesforce 的 日 
志 数 据 , 审 计 用 户 的 实际 数据 ,其 目的 在 于 分 析 数 据 来 理解 在 Salesforce 中 的 用 户 行 为 ,并 
预测 其 未 来 发 展 趋势 。 

这 个 插件 可 以 在 GitHub 中 获取 : 


https://github.com/developerforce/elf elk docker 


ELF 是 Event Log Files 的 缩写 。 该 插件 简化 了 Stack 架构 的 配置 ,允许 下 载 事件 日 志 
文件 (Event Log Files) 并 得 到 索引 ,最 终 通过 可 视 化 的 Kibana 来 分 析 数 据 。 该 应 用 使 用 了 
Elasticsearch Logstash 和 Kibana。 


1.3.2 CERN 


在 欧洲 原子 能 研究 组 织 (CERN) 中 ,Elastic Stack 完成 的 工作 任务 不 是 一 项 而 是 五 项 。 
Elastic Stack 主要 用 于 完成 如 下 工作 任务 : 

。 消息 管理 (Messaging); 

。 数据 监控 (Data monitoring); 

。 云 基准 服务 (Cloud benchmarking); 

。 系统 架构 监控 (Infrastructure monitoring); 

。 作业 调度 (Job monitoring ) 。 

多 种 Kibana 面板 在 这 里 被 用 于 对 数据 的 可 视 化 工作 。 


1.3.3 Green Man Gaming 


Green Man Gaming 是 一 款 在 线 游戏 平台 。 在 这 个 平台 上 ,游戏 开发 者 发 布 其 研发 的 
游戏 产品 ,目的 在 于 为 玩家 提供 独特 的 .良好 的 游戏 体验 。 他 们 也 开始 使 用 Elastic Stack 来 
传输 日 志 分 析 、 完 成 搜索 和 分 析 游 戏 数 据 。 

他 们 从 设置 Kibana 面板 开始 ,获取 了 有 关 玩 家 的 数量 .国籍 和 所 使 用 的 货币 等 信息 。 
这 将 帮助 他 们 更 好 地 理解 用 户 需 求 ,改进 和 提升 服务 响应 质量 。 

除了 这 些 ,Elastic Stack 也 被 其 他 很 多 公司 用 于 分 析 相 应 的 数据 。 有 时 候 , 并 非 所 有 的 
组 件 都 能 被 派 上 用 场 , 例 如 Beats 和 Logstash 等 不 是 每 次 都 能 派 上 用 场 。 有 时 候 , 可 能 只 
是 结合 使 用 Elasticsearch 和 Kibana。 

如 果 我 们 看 一 下 该 组 织 的 用 户 ,就 会 发 现 那些 热衷 于 大 数据 分 析 、 商 业 智能 数据 可 视 
化 日志 分 析 、 数 据 科 学 处 理 与 应 用 等 方面 的 人 往往 会 愿意 使 用 这 个 工具 。 
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Elastic Stack 本 来 就 不 缺 竞争 对 手 ,因为 它 一 出 现 就 成 为 近年 来 市 场 上 其 他 工具 的 强 
有 力 的 竞争 对 手 ,并 且 它 还 一 直 在 发 展 。 下 面 是 一 些 和 Elastic Stack 类 似 的 软件 产品 : 
。 开源 软件 : 
4 Graylog: 可 访问 https://www. graylog. org/。 
4 InfluxDB: 可 访问 https://influxdata. com 。 
。 其他: 
4 Logscape: 可 访问 http://logscape. com。 
4 Logscene: 可 访问 http://sematext. com/logscene/。 
4 Splunk: 可 访问 http://www. splunk. com。 
4 Sumo Logic: 可 访问 https://www. sumologic. com 。 
Kibana 的 竞争 者 : 
4 Grafana: 可 访问 http://grafana. org。 


* Graphite: 可 访问 https://graphiteapp. org。 
。 Elasticsearch 的 竞争 者 : 
* Lucene/Solr: 可 访问 https://lucene. apache. org 或 http://lucene. apache. org/ 
solr。 
4 Sphinx: 可 访问 http://sphinxsearch. com。 
上 面 大 多 数 产 品 也 做 日 志 管 理 , 但 Elastic Stack 已 经 不 局 限于 此 了 。 它 提供 了 处 理 各 
种 类 型 数据 的 功能 ,而 非 仅 仅 局 限于 日 志 管 理 。 


1.5 设置 Elastic Stack 的 使 用 环境 


从 本 节 开 始 , 我 们 将 要 在 两 种 流行 的 操作 系统 Windows 和 Ubuntu 上 安装 Elastic 
Stack 的 4 个 组 件 。 在 安装 Elasticsearch 和 Logstash 之 前 ,需要 先 安装 好 Java 环境 。 如 果 
已 经 在 计算 机 上 安装 好 Java 环境 ,可 上 略 过 这 一 部 分 。 


1.5.1 安装 Java 


本 节 中 ,计算 机 中 需要 安装 JDK, 用 于 访问 到 Elasticsearch。 我 们 应 该 安装 好 Oracle 
Java 8(Oracle JDK1. 8.0_73) 版 本 的 Java 运行 环境 , 它 也 是 Elasticsearch 5. 0. 0 推荐 使 用 
的 Java 版 本 。 
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1.5.1.1 在 Ubuntu 14.04 上 安装 Java 


按 如 下 步骤 ,可 通过 终端 和 APT 包 @ 的 方式 安装 Java 8。 
(1) 执行 如 下 命令 ,添加 Oracle Java PPA 仓库 (Personal Package Archive)@ 获 取 APT 
列表 : 


sudo add- apt-repository -y ppa:webupd8team/java 





全 这 里 使 用 了 第 三 方 资源 。 这 不 违反 Oracle Java 规范 。PPA 直接 从 Oracle 下 载 
并 安装 Java。 





sudo 命令 执行 后 9, 如果 不 是 root 用 户 , 则 需要 输入 密码 ;成 功 后 ,可 能 会 显示 “OK”， 
表明 存储 内 容 已 被 正确 导入 。 

(2) 更 新 APT 包 , 使 之 包括 所 有 的 最 新 文件 。 

sudo apt -get update 

(3) 安装 最 新 版 本 的 Oracle Java 8。 

sudo apt -get -y install oracle- java8-installer 


在 安装 过 程 中 ,可 能 要 求 接受 license 协议 ,如 下 图 所 示 。 


Dracte Binary Code License Mgreenent for the Jave St Platform Products and Javafx 


| Yes must soree to the cense svatlable tn http://Jeve.con/ tcense tf you want to vse orecte JOK, 


Emma 


人 order ta lnstalt ths peckage, yey mest sccept the UAcense terms, the ‘oracle Rn Code Licmmse Mgreement for the Dove SE Fitfemm 
Produets snd J *. sot seepttg oll cmcel the Vstallation. 


0 you ceapt the Orache Benary Code Meta tral 





(4) 为 了 检验 Java 是 否 正 确 安装 ,可 在 终端 输入 下 述 命令 。 


java -version 


@ 译 者 注 : APT(Advanced Packaging Tool) 是 Linux 系统 中 的 软件 包 管 理 程序 ,使 用 它 可 以 找到 想 要 的 软件 包 ， 
且 安 装 、 印 载 ,更 新 都 很 简便 。 

@ 译 者 注 : 有 些 软件 因为 种 种 原因 不 能 进入 官方 的 Ubuntu 软件 仓库 。 为 方便 用 户 使 用 ,允许 用 户 通过 PPA 建立 自 
己 的 软件 仓库 并 自由 上 传 软件 。PPA 也 被 用 来 对 一 些 打算 进入 Ubuntu 官方 仓库 的 软件 或 某 些 软件 的 新 版 本 进行 测试 。 

图 译 者 注 : sudo 是 Linux 系统 管理 指令 ,是 允许 系统 管理 员 让 普通 用 户 执行 root 命令 的 工具 。 








如 上 的 截图 表明 Java 已 经 成 功 安装 。 


1.5.1.2 在 Windows 上 安装 Java 


按 如 下 步骤 ,在 Windows 环境 下 安装 Java。 
(1) 使 用 如 下 链接 ,从 Sun Microsystems 中 下 载 最 新 版 Java JDK 。 


http://www.oracle.com/technetwork/java/javase/downloads/index.html 


打开 链接 , 单 击 Download 按钮 ,下 载 JDK。 

可 能 被 重 定向 到 下 载 页 : 首先 , 单 击 Accept License Agreement 无 线 按钮 ;之 后 ,选择 适 
合 Windows 系统 的 版 本 (32 位 机 用 x86,64 位 机 用 x64) ,并 下 载 对 应 的 EXE 文件 。 

(2) 双击 安装 文件 ,打开 安装 向 导 。 

(3) 单 击 Next 按钮 ,接受 license 协议 ;继续 单 击 Next 按钮 ,直到 完成 后 续 安 装 步骤 。 

(4) 为 了 能 够 运行 Java, 还 需要 在 Windows 中 设置 Java 环境 变量 。 首 先 , 打 开 “My 
Computer” 的 属性 菜单 ,选择 “Advanced system settings”。 在 “Advanced” 选 项 卡 上 单 击 环境 
变量 进行 相应 操作 ,如 下 图 所 示 。 

System Properties 瑟瑟 


Computer Name | Hardware | Advanced | System Protection | Remote 


You must be logged on as an Administrator to make most of these changes 
Peromance 
Visual effects, processor scheduing. memory usage. and vwtual memory 


Settings. 


User Profles 
Deskdop settings related to your sgnn 


Statup and Recovery 
System startup. system faiure and debuggng rfomabon 





@ 译 者 注 : 原纸 介质 的 图 书 上 未 有 此 图 ,但 电子 版 上 有 。 这 里 采用 电子 版 的 内 容 。 
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打开 环境 变量 后 . 单 击 New( 在 System Variables 下 面 ) ,为 变量 命名 JAVA_HOME ,其 
变量 值 为 C:\ProgramFiles\JavaN\jdkl. 8. 0_74, 如 下 图 所 示 。 检 查 一 下 自己 的 系统 ,确保 
JDK 已 经 安装 到 指定 的 路 径 。 





Edit System Variable EI 








双击 Path 变量 (在 System Variables 下 ) ,在 文本 框 的 最 后 .如 果 尚 未 指定 JDK 文件 夹 
下 bin 文件 夹 的 位 置 , 请 输入 半角 字符 如 下 : %JAVA_HOME%\bin, 并 在 后 续 打 开 的 窗口 
中 单 击 OK 按钮 。 





全 请 勿 删除 path 变量 文本 框 中 已 经 存在 的 任何 字符 。 





(5) 为 检验 Java 是 否 被 正确 安装 ,请 在 命令 行 提示 符 下 输入 如 下 内 容 : 


java -version 





上 图 表明 ,Java 已 经 安装 成 功 。 

1.5.2 安装 Elasticsearch 
本 节 将 介绍 Elasticsearch v5.1.1 在 Ubuntu 和 Windows 环境 下 各 自 的 安装 方法 。 
1.5.2.1 在 Ubuntu 14.04 环境 下 安装 Elasticsearch 


为 了 在 Ubuntu 下 安装 Elasticsearch ,请 按 如 下 步骤 进行 操作 : 
(1) 以 debian packageg 模式 ,下 载 Elasticsearch 5.1.1: 


wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch- 


5.1.1.deb 


Q@ 译 者 注 : 广义 的 debian 是 指 一 个 致力 于 创建 自由 操作 系统 的 合作 组 织 及 其 作品 。 这 里 的 debian 是 Linux 的 一 
种 发 行 版 。 和 其 他 发 行 版 相 比 , 它 拥有 很 多 优势 。 
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(2) 输入 如 下 命令 ,安装 debian package。 


sudo dpkg -i elasticsearch-5.1.1.deb 





0 Elasticsearch 将 被 安装 在 /usr/share/elasticsearch 文件 夹 下 。 配 置 文件 位 于 
/etc/elasticsearch。 其 init 脚本 位 于 /etc/init. d/elasticsearch。 日 志 log 位 于 /var 
/log/elasticsearch 目录 。 








(3) 设置 Elasticsearch, 使 之 能 自 启动 。 如 果 使 用 的 是 System V 风格 的 ,请 运行 如 下 
命令 : 


sudo update- rc.d elasticsearch defaults 95 10 
应 的 提示 将 会 出 现在 屏幕 上 
Rdding system startup for, /etc/init.d/elacticsearch 
使 用 下 述 命令 ,检查 Elasticsearch 的 运行 状态 : 
sudo service selasticsearch status 


使 用 如 下 命令 ,以 服务 方式 运行 Elasticsearch: 


sudo service elasticsearch start 


全 如 果 在 前 面 安装 了 ES-5. 0. x 不 支持 的 插件 ,Elasticsearch 将 不 会 启动 。 由 于 插 


件 不 能 使 用 ,因此 需要 卸载 早期 ES 版 本 中 使 用 的 插件 。 回 到 ES 主 目 录 , 使 用 如 下 
命令 可 移 除 插件 @: bin/elasticsearch-plugin remove head。 





Elasticsearch 命令 的 使 用 语法 : 
sudo service elasticsearch {start | stop | restart | force-reload | status} 


如 果 正 在 使 用 的 是 systemd 方式 ,可 按 如 下 方式 使 用 Elasticsearch: 





四 译 者 注 : dpkg 是 Debian Packager 的 简写 ,是 为 debian 专门 开发 的 套件 管理 系统 ,可 方便 软件 的 安装 、 更 新 及 移 
除 。 所 有 源 自 debian 的 Linux 发 行 版 (例如 Ubuntu、Knoppix 等 ) 都 可 使 用 dpkg。 

四 译 者 注 : 这 里 以 Head 插件 为 例 介绍 删除 方法 。Head 是 一 款 在 ES 早期 版 本 中 使 用 的 插件 。ES 升 至 5.0.x 后 ， 
对 应 版 本 的 Head 变 为 服务 器 端 程序 。 该 版 本 中 官方 推出 X-Pack 插件 来 提供 与 之 相似 的 功能 。 使 用 该 插件 后 ,由 于 其 
中 启用 了 Security 组 件 , 用 户 访问 时 需要 提供 身份 验证 因此 X-Pack 被 印 载 之 前 ,不 具备 身份 验证 功能 的 Head 将 
无 法 连接 ES。 

@ systemd 是 用 来 启动 守护 进程 daemon( 其 中 的 d 是 daemon 首 字 母 ) 的 工具 。 历 史上 ,Linux 的 启动 一 直 采 用 init 
进程 ,但 它 启动 时 间 长 且 脚本 复杂 。systemd 可 部 分 解决 这 些 问题 , 它 取 代 了 init. d, 成 为 系统 的 第 一 个 进程 (PID 为 1)， 
其 他 进程 都 是 它 的 子 进程 。 
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sudo /bin/systemctl daemon- reload 


sudo /bin/systemctl enable elasticsearch service 


为 了 验证 Elasticsearch 是 否 已 经 正确 安装 ,可 在 浏览 器 中 打开 http://localhost:9200， 
或 在 命令 行 中 运行 如 下 命令 : 


curl -X GET http://localhost:9200 


如 果 出 现下 图 , 则 说 明 Elasticsearch 安装 成 功 。 


“name” : “xB29COp"， 
"cluster_name”: "elasticsearch", 
“cluster_uuid” : "wbXRP_heQYK8QYNPJbalIA", 
“version™ : { 

number”: "5.1.1", 

"build_hash”: "5395e21", 

”build _date”: "2816-12-86T12:36:15.4892", 

”build_snapshot”: false, 

“lucene_version” : "6.3.9" 


"tagline” : “You Know, for Search” 





1.5.2.2 在 Windows 环境 下 安装 Elasticsearch 


请 按照 如 下 步骤 ,在 Windows 环境 下 安装 Elasticsearch 。 
(1) 使 用 如 下 链接 ,下 载 Elasticsearch 5.1. 1。 


https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.1.1.zip 


打开 链接 ,下 载 ZIP 文件 包 。 
(2) 解压 下 载 的 ZIP 文件 包 。 可 以 使 用 WinRAR、7-Zip 以 及 其 他 解压 软件 完成 解压 工 
作 ( 如 果 没 有 上 述 软件 ,请 自行 下 载 ) 。 
解压 后 ,会 在 对 应 目录 中 展开 相应 的 文件 和 文件 夹 。 
(3) 打开 解压 的 文件 夹 ,导航 到 其 中 的 bin 文件 夹 。 
(4) 单 击 其 中 的 elasticsearch. bat 文件 ,运行 Elasticsearch 。 





人 如 果 关 闭 此 运行 窗口 ,Elasticsearch 的 运行 节点 将 会 被 停止 ,Elasticsearch 也 将 
停止 运行 。 





(5) 为 验证 Elasticsearch 是 否 正 确 安 装 ,请 在 浏览 器 中 输入 : http://localhost:9200。 
如 果 出 现下 图 ,说 明 安装 成 功 ?。 


@ 译 者 注 : 原纸 介质 的 图 书 上 未 有 此 图 ,但 电子 版 上 有 。 这 里 采用 电子 版 的 内 容 。 


pa 
网 1 2 精通 Elastic Stack 








“name” : "3Fqp-HA"， 
“cluster_ name" : "elasticsearch", 
"cluster uuid" : "Veu-BkqBTLerMhToip7rGQ", 
“version™ : { 
"number”" : "5.1.1"， 
“build hash” : "5395e21", 
"build date” : "2616-12-66T12:36:15.469Z"， 
"build_snapshot* : false, 
“lucene version" : "6.3.9" 


"tagline" : "You Know, for Search" 








按 如 上 所 述 方法 安装 Elasticsearch 后 ,在 命令 行 方式 下 ,进入 其 bin 文件 夹 ,使 用 如 下 
命令 ,以 服务 (service) 的 方式 启动 Elasticsearch: 


elasticsearch- service.bat install 


Usage: elasticsearch- service.bat install | remove | start | stop | manager 


1.5.3 安装 Kibana 

本 节 将 分 别 介绍 在 Ubuntu 和 Windows 环境 下 安装 Kibana 5. 1. 1 的 方法 。 在 安装 之 
前 ,需要 如 下 预备 环节 : 

。 Elasticsearch 已 经 安装 正确 , 且 运行 在 9200 端口 (默认 配置 的 端口 ) 。 

。 确保 Kibana 运行 的 端口 一 一 默认 是 5601 端口 一 一 未 被 其 他 应 用 所 占用 。 

1.5.3.1 在 Ubuntu 14.04 环境 下 安装 Kibana 

请 按照 如 下 步骤 ,在 Ubuntu 环境 中 安装 Kibana 。 

(1) 在 安装 Kibana 之 前 ,请 确认 计算 机 系统 是 32 位 还 是 64 位 。 可 以 通过 如 下 命令 得 
到 相关 信息 : 

uname -m 

如 果 输 出 x86_64, 表 示 计 算 机 是 64 位 的 系统 ;如 果 输 出 i686, 表明 计 算 机 是 32 位 的 

(2) 以 debian package 方式 下 载 Kibana 5.1.1: 

。 对 于 64 位 系统 : 

wget https://artifacts.elastic.co/downloads/kibana/kibana-5.1.1-amd64.deb 

。 对 于 32 位 系统 : 

wget https://artifacts.elastic.co/downloads/kibana/kibana-5.1.1-i386.deb 


(3) 使 用 如 下 命令 安装 debian package: 
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。 对 于 64 位 系统 : 
sudo dpkg -i kibana-5.1.1-amd64.deb 
。 对 于 32 位 系统 : 


sudo dpkg -i kibana-5.1.1-i386.deb 





全 Kibana 将 会 被 安装 在 /usr/share/kibana 文件 夹 下 。 配 置 文件 位 于 etc/kibana。 
其 init 脚本 位 于 etc/init. d/kibana。 日 志文 件 位 于 /var/log/kibana 文件 夹 。 





(4) 配置 Kibana 使 之 自 启动 。 如 果 使 用 SysV init 分 布 式 处 理 方式 ,可 输入 如 下 命令 : 
sudo update- rc.d kibana defaults 95 10 

上 述 命 令 将 会 在 屏幕 输出 : 

Adding system startup for /etc/init.d/kibana 

使 用 下 述 命 令 , 检 验 Kibana 的 状态 : 

sudo service kibana status 

使 用 下 述 命 令 , 以 服务 (service) 方 式 运 行 Kibana: 

sudo service kibana start 

Kibana 命令 的 使 用 方式 如 下 : 

sudo service kibana {start|force- start|stoplforce- stopl|status|restart} 
如 果 正 在 以 systemd 分 布 式 方式 运行 ,可 使 用 如 下 命令 : 


sudo /bin/systemctl daemon- reload 


sudo /bin/systemctl enable kibana.service 





例如 果 想 安装 其 他 任何 版 本 的 Kibana, 可 访问 Elastic 团队 提供 的 软件 下 载 网 站 ， 
复制 相应 的 debian package 链接 ,使 用 wget 来 获取 安装 包 。 








(5) 可 以 在 浏览 器 中 输入 http://localhost:5601, 打 开 如 下 图 所 示 的 链接 地 址 ,验证 
Kibana 是 否 正 确 安装 。 





1.5.3.2 在 Windows 环境 下 安装 Kibana 


请 按照 如 下 步骤 ,在 Windows 环境 下 完成 Kibana 的 安装 。 
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[A Management / Kibana 
f 是 Index Patterns Saved Objects Advanced Settings 
© wre 


dex Pattern You must 


xc Configure an index pattern 


In order to use Kibana you must configure at least one index pattern_Index patterns are used to identify the 
Elasticsearch Index to run search and analytics against They are also used to configure fields. 


Index contains time-based events 
Use event times to create index names [DEPRECATED] 

Index name or pattern 

Patterns allow you to define dynamic index names using * as a widcard. Example: logstash-* 
logstash-* 
Do not expand index pattern when searching Not ecommenced) 


By default, searches against any time-based index pattern that contains a wildcard witl automatically be 
expanded to query only the indices that contain data within the currently selected time range. 


Searching against the Index pattern /ogstash-* will actually query elasticsearch for the specific matching 
indices (e.g. Jogstash-2015.12.27) that fall within the current dme range. 


Time-field name © ‘ehieh fess 
@timestamp 


(1) 使 用 如 下 链接 ,从 Elastic 网 站 下 载 Kibana 5. 1. 1。 





https://artifacts.elastic.co/downloads/kibana/kibana- 5.1.1-windows-x86.zip 


打开 链接 , 单 击 下 载 相应 的 ZIP 文件 包 。 

(2) 使 用 WinRAR、7-ZIP 或 类 似 的 相关 软件 解压 ZIP 文件 。 之 后 .会 在 相应 的 文件 夹 
下 解压 出 Kibana 对 应 的 文件 和 文件 夹 。 

(3) 在 解压 出 的 文件 夹 中 ,定位 到 其 中 的 bin 文件 夹 下 。 

(4) 单 击 kibana. bat 文件 ,运行 Kibana。 

(5) 在 浏览 器 中 输入 http://localhost: 5601, 验 证 Kibana 是 否 正确 安装 ,如 下 图 所 示 。 


区 ki Management / obans 
a ibana Index Patterns Saved Objects Advanced Settings 
© oem 


Configure an index pattern 


I order to use Kibana you must configure at least one ndex pattern. Index patterns are used to dentfy the Elasticsearch Index to run search and 
analytics against They are also used to configure fields. 


Index contains tme based events 
Use event times to create index names InEpssceTEDl 


Index name or pattern 


Patterns alow you to define dynamic index names using * a5 a widcard. Example: logstash 
logstash* 


Do not expand index pattern when searching Mr amma) 


that contains a whdcard wil automaticaly be expanded to query only the Indices 


Searcing against the index pe tash-* wal actualy query elasticsearch for the specific matching indkces (e.g lagstash-2015.12.27) 
that fall within the curent time 
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1.5.4 安装 Logstash 
本 节 分 别 介 绍 在 Ubuntu 和 Windows 环境 下 安装 Logstash 5. 1. 1 的 方法 。 
1.5.4.1 在 Ubuntu 14.04 下 安装 Logstash 


请 按照 如 下 步骤 ,完成 在 Ubuntu 环境 下 Logstash 的 安装 。 
(1) 以 debian 方式 下 载 Logstash 5.1. 1: 


wget https://artifacts.elastic.co/downloads/logstash/logstash-5.1.1.deb 
(2) 使 用 如 下 命令 安装 debian package。 


sudo dpkg -i logstash-5.1.1.deb 





0 Logstash 将 会 被 安装 到 usr/share/logstash 文件 夹 下 。 其 配置 文件 位 于 etc/ 
logstash。 日 志 Log 文件 位 于 /var/log/logstash 目录 下 。 





(3) 使 用 如 下 命令 检查 Logstash 的 状态 。 


sudo initctl status Logstash 
使 用 如 下 命令 ,以 服务 (service) 方 式 运行 Logstash。 


sudo initctl start logstash 


0 Logstash 将 会 被 安装 到 usr/share/logstash 文件 夹 下 。 





1.5.4.2 在 Windows 下 安装 Logstash 


按 如 下 步骤 ,在 Windows 环境 下 安装 Logstash。 
(1) 使 用 如 下 链接 从 Elastic 网 站 下 载 Logstash 5. 1. 1。 打 开 链 接 , 下 载 ZIP 压缩 文 
件 包 。 


https://artifacts.elastic.co/downloads/logstash/logstash-5.1.1.zip 


(2) 使 用 WinRAR、7-ZIP 或 类 似 的 解压 软件 解压 下 载 的 ZIP 文件 包 。 这 将 会 在 相应 
的 目录 中 解压 出 Logstash 文件 和 文件 夹 。 

(3) 打开 解压 后 的 文件 夹 ,导航 到 其 中 的 bin 子 文件 夹 。 

(4) 为 验证 是 否 正 确 安装 Logstash, 可 定位 到 bin 文件 夹 ,在 命令 行 提示 符 后 输入 : 


logstash -version 


站 
风 1 D1 精通 Elastic Stack 





如 果 正 确 安装 了 Logstash, 将 会 显示 Logstash 的 版 本 等 信息 。 
1.5.5 安装 Filebeat 
本 节 分 别 介 绍 在 Ubuntu 和 Windows 环境 下 安装 Filebeat 5. 1. 1 的 方法 。 
1.5.5.1 在 Ubuntu 14.04 下 安装 Filebeat 
请 按照 如 下 步骤 ,完成 在 Ubuntu 环境 下 的 Filebeat 的 安装 。 
(1) 在 安装 Filebeat 之 前 ,请 确认 计算 机 系统 是 32 位 还 是 64 位 ,命令 如 下 


uname -m 


如 果 输 出 x86_64, 表 示 计 算 机 是 64 位 的 系统 ;如 果 输 出 i686, 表 明 计 算 机 是 32 位 的 
系统 。 

(2) 以 debian 方式 下 载 Filebeat 5. 1. 1。 

。 对 于 64 位 系统 : 


wget https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-5.1.1- 
amd64.deb 


。 对 于 32 位 系统 : 


wget https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-5.1.1- 
i386.deb 


(3) 使 用 如 下 命令 安装 debian 模式 的 软件 包 : 
。 对 于 64 位 系统 : 


sudo dpkg -i filebeat-5.1.1-amd64.deb 
。 对 于 32 位 系统 : 


sudo dpkg -i filebeat-5.1.1-i386.deb 





人 OFilebeat 将 会 被 安装 在 /usr/share/filebeat 文件 夹 下 。 配 置 文件 位 于 etc/ 
filebeat。 其 init 脚本 位 于 etc/init. d/filebeat 文件 夹 。 日 志文 件 位 于 /var/log/ 
filebeat 文件 夹 。 








(4) 配置 Filebeat, 使 之 能 自 启动 。 如 果 使 用 SysV init 分 布 式 处 理 , 可 输入 如 下 命令 : 
sudo update- rc.d filebeat defaults 95 10 


上 述 命令 运行 后 ,将 会 在 屏幕 输出 : 
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Adding system startup for /etc/init.d/filebeat 


使 用 如 下 命令 ,检验 Filebeat 的 状态 : 

















sudo service filebeat status 
使 用 下 述 命令 ,以 服务 (service) 方 式 运 行 Filebeat: 
sudo service filebeat start 


Filebeat 对 应 的 命令 使 用 方式 如 下 : 


sudo service filebeat {startl|lstoplstatus|restart|force- reload} 





人 如 果 想 以 服务 (service) 方 式 运行 Filebeat, 需 运行 配置 文件 /etc/filebeat/ 


filebeat. yml 。 





例如 果 想 安装 其 他 任何 版 本 的 Filebeat, 可 访问 Elastic 团队 提供 的 软件 下 载 网 站 ， 
复制 debian 软件 包 链接 ,使 用 wget 来 获取 安装 包 。 





1.5.5.2 在 Windows 环境 下 安装 Filebeat 





按照 如 下 步骤 ,在 Windows 环境 下 安装 Filebeat 。 

(1) 安装 Filebeat 之 前 ,请 在 命令 行 提示 符 后 输入 如 下 命令 ,检查 系统 是 32 位 的 还 是 
64 位 的 。 

wmic os get osarchitecture 

系统 将 会 输出 是 64 位 或 32 位 的 提示 信息 。 

(2) 使 用 如 下 链接 从 Elastic 网 站 下 载 Filebeat 5. 1. 1 。 

对 于 64 位 系统 : 


https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-5.1.1- windows 
-x86_64.zip 


对 于 32 位 系统 : 
https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-5.1.1- windows 
-x86.zip 

单 击 相 应 的 链接 ,下 载 相应 的 ZIP 文件 。 

(3) 使 用 WinRAR、7-ZIP 或 类 似 的 解压 工具 软件 解压 下 载 的 ZIP 文件 包 , 这 将 会 在 相 





(18 ， 精通 Elastic Stack 





应 的 目录 中 解压 Filebeat 压缩 包 中 的 文件 和 文件 夹 。 

(4) 打开 Windows 的 PowerShell 用 作 超 级 用 户 管理 员 ( 如 果 没 有 ,请 安装 )?。 

(5) 定位 到 Filebeat 的 文件 夹 (例如 C:\Users\username\Desktop)。 在 Windows 的 
PowerShell 中 运行 如 下 命令 : 





.\install- service- filebeat.psl 





全 如 果 解 析 的 脚本 无 法 在 系统 上 执行 ,那么 需要 在 当前 Session 上 完成 设置 ,以 便 
脚本 能 正常 执行 。 例 如 : PowerShell. exe -ExecutionPolicy UnRestricted-File. 


\install-service-filebeat. psl 。 





这 将 会 安装 Filebeat ,并 使 之 成 为 Windows 的 服务 (service) 。 
1.6 X Pack 简介 


还 有 一 些 和 Elastic Stack 相关 的 特性 也 需要 重视 ,其 中 应 特别 关注 安全 (Security) 、 监 
控 (Monitoring) ,报警 (Alerts) 等 。X-Pack 包括 如 下 特性 : 

。 安全 (Security); 

。 报警 (Alerts); 

。 监控 (Monitoring); 

。 可 视 化 (Graphs); 

。 报告 (Reporting)。 

安全 (Security) ,报警 (Alerts) 以 及 监控 (Monitoring) 是 之 前 就 出 现 过 的 组 件 ,只 是 在 早 
期 它们 的 名 称 分 别 为 Shield、Watcher、Marvel, 现在 又 加 入 了 可 视 化 (Graphs)、 报 告 
(Reporting) 等 。 作 为 一 个 团队 ,它们 现在 统称 为 X-Pack。 像 Elastic Stack 中 的 工具 一 样 ， 
它们 也 能 以 相同 的 版 本 执行 开发 构建、 测试 .发布 等 功能 。 





人 @@ 本 书 中 所 有 使 用 的 代码 可 以 在 Github 软件 库 中 下 载 @: 


https:/V/github. com/kravigupta/ mastering-elastic-stack-code-files/tree/5. 1. 1 





@ 译 者 注 : Windows PowerShell 是 一 种 命令 行 外 壳 程 序 和 脚本 环境 ,扩展 了 在 Windows 命令 提示 符 和 Windows 
Script Host 环境 中 的 功能 。 
回 译 者 注 : 原文 电子 版 中 提供 了 此 链接 。 
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1.7 ”本 章 狼 结 


本 章 介 绍 了 Elastic Stack 及 其 组 件 , 包 括 Elastic Stack 是 如 何 发 展 的 , 它 改 变 了 什么 ， 
它 又 推出 了 什么 ,以 及 ELK Stack 如 何 演变 为 Elastic Stack。 我 们 也 了 解 了 这 些 组 件 是 如 
何 帮助 相关 行业 组 织 满 足 业 务 需求 的 一 些 案例 。 

在 本 章 的 后 面部 分 ,介绍 了 如 何 设置 和 配置 Elasticsearch、Logstash 和 Kibana, 以 及 作 
为 服务 的 Filebeat。 最 后 ,本 章 简单 介绍 了 X-Pack, 其 详细 内 容 在 本 书后 续 部 分 将 会 介绍 。 

下 一 章 中 ,我 们 将 会 学 习 关 于 Elasticsearch 的 一 些 更 详细 的 内 容 ,包括 API、 
QueryDSL 等 。 
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走 进 Elasticsearch 


在 前 面 的 章节 ,我 们 了 解 了 Elasticsearch、Logstash、Kibana 和 Beats 的 基本 内 容 , 以 及 
如 何 安装 和 设置 这 些 组 件 以 建立 数据 管道 。 我 们 也 逐渐 了 解 了 Elasticsearch 的 作用 及 其 
与 Stack 中 的 其 他 组 件 一 起 工作 的 方式 ,不 过 那 只 是 冰山 一 角 。 为 了 更 好 地 理解 
Elasticsearch 是 如 何 工作 的 ,我 们 需要 了 解 它 的 API、 模 块 和 插件 。 这 些 内 容 分 为 两 章 
介绍 。 

在 本 章 , 我 们 将 深入 到 Elasticsearch 中 ,内 容 涉 及 以 下 话题 : 

。 Elasticsearch 的 起 源 ; 

。 理解 体系 结构 ; 

。 Elasticsearch API 的 用 法 ; 

。 聚合 ; 

。 Painless 脚本 说 明 。 

在 本 章 最 后 ,将 介绍 如 何 使 用 聚合 aggregations ,并 体会 API 强大 的 性 能 。 更 多 关于 
Elasticsearch 的 信息 ,将 在 第 8 章 Elasticsearch API 中 介绍 。 


2.1 Elasticsearch 的 起 源 


这 一 切 都 源 于 Lucene, 它 是 一 个 由 Apache 软件 基金 会 支持 的 优秀 项 目 。 目 前 许多 项 目 都 
是 基于 Lucene 的 ,例如 Apache Solr、Elasticsearch、Apache Nutch、Lucene. Net DocFetcher 等 。 
如 果 试 图 找到 一 种 搜索 引擎 的 解决 方案 ,肯定 会 对 Lucene 印象 深刻 。 它 不 仅 可 用 于 Java 环境 
中 ,还 可 以 用 于 Delphi、Perl.C# .C++ .Python、Ruby 以 及 PHP 环境 中 。Lucene 的 完整 实现 详 
见 http://wiki. apache. org/lucene-Java/LuceneImplementations 。 

Lucene 是 全 文 搜索 引擎 , 它 可 以 在 文档 中 创建 索引 。 在 一 段 或 海量 的 文本 中 ,每 一 个 
字符 串 称 为 一 个 词 项 (term) ,一 个 词 项 序列 称 为 一 个 字段 (field) ,而 一 个 字段 序列 称 为 一 个 
文档 (document) 。 一 个 索引 (index) 包 含 一 系列 文档 .数据 索引 也 作为 文档 。 

在 书 中 ,通常 看 到 一 个 索引 将 所 有 的 关键 字 列 出 ,这 有 助 于 我 们 找到 实际 的 内 容 。 这 种 
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类 型 的 索引 称 为 倒 排 索引 (inverted-index) ,其 中 使 用 词 项 或 字符 串 来 索引 文档 。 

Lucene 是 一 个 很 不 错 的 基于 文本 的 搜索 引擎 项 目 。 它 最 早出 现在 1999 年 ,从 那 时 起 ， 
有 大 量 项 目 基于 Lucene 而 实现 。 值 得 注意 的 一 点 是 ,有 些 搜 索引 擎 将 Lucene 作为 其 核心 。 
这 些 项 目 通 过 包装 (wrapping) 来 扩展 Lucene. 为 它 创 建 一 个 接口 ,添加 更 多 的 特性 等 ,从 而 
提供 各 种 各 样 的 解决 方案 。 

对 于 Java 的 基础 项 目 ,Apache Solr 和 Elasticsearch 是 个 不 错 的 选择 。 可 以 在 网 上 找 
到 很 多 讨论 搜索 引擎 优越 性 的 信息 。 

在 Elasticsearch 之 前 ,Shay Banon 创建 的 Compass 也 是 建立 在 Lucene 上 的 搜索 引擎 
项 目 。Compass 拥有 十 分 卓越 的 特性 ,例如 无 颖 整合 XML JSON 支持 ,以 及 整合 ORM 库 
(如 Hibernate 和 JPA) 的 功能 ,这 些 特性 可 以 使 Java 开发 者 很 容易 对 其 进行 开发 。 当 
Compass 升级 到 3. 0 版 本 时 ,Shay 认为 它 需 要 做 一 些 重 大 改变 ,应 将 其 所 基于 的 Lucene 升 
级 至 2. 9 版 本 ,以 解决 可 扩展 性 的 问题 。 他 想到 了 一 个 更 好 的 解决 方案 ,这 个 方案 能 够 解决 
所 有 的 问题 ,因此 Elasticsearch 出 现 了 ,并 代替 了 Compass 3.0。2010 年 7 月 ,他 在 博客 写 
了 一 篇 名 为 《Compass 和 Elasticsearch 的 未 来 ) 的 文章 (http://thedudeabides. com/ 
articles/the_future_of compass) 。 在 文章 中 他 写 道 :“ 因 此 ,我 开始 构建 Elasticsearch , 它 基 
本 上 是 一 个 完 完全 全 的 分 布 式 解决 方案 。 我 还 想 创 建 一 个 可 以 被 其 他 编程 语言 轻松 使 用 的 
搜索 解决 方案 ,这 就 意味 着 在 HTTP 之 上 表示 JSON ,这 种 方法 不 用 牺牲 它 在 Java 编程 语 
言 中 的 易 用 性 (或 者 更 特殊 的 情况 ,例如 JVM) 。” 

Elasticsearch 一 出 现 ,就 开始 受到 开源 社区 中 众多 开发 者 的 关注 。 因 此 ,相关 领域 中 消 
现 了 大 量 使 用 Elasticsearch 的 客户 端 。 其 中 GitHub、 Quora、Stack Exchange、Mozilla、 
StumbleUpon、CISCO 和 Netflix 是 最 著名 的 。 更 全 面 的 名 单 可 以 访问 以 下 产品 网 站 查看 : 
https://www. elastic. co/use-cases。 

Elasticsearch 被 认为 是 最 先进 的 搜索 引擎 , 它 能 提供 Lucene 提供 的 任何 内 容 ,而 且 远 
不 止 这 些 。 让 我 们 来 看 看 其 中 的 关键 特性 : 

。 JSON 支持 : Elasticsearch 采用 JSON 格式 的 文档 作为 输入 来 创建 索引 。 默 认 情 况 

下 ,所 有 字段 的 属性 都 会 被 自动 检测 和 索引 。Elasticsearch 可 以 为 存储 的 数据 创建 
映像 (默认 设置 为 字符 串 , 可 以 人 为 更 改 )。 它 不 需要 定义 模式 (Solr 中 使 用 
schema. xml 来 配置 ) 。 由 于 Elasticsearch 利用 了 Lucene 的 优点 ,因此 可 以 提供 对 
已 索引 的 数据 执行 全 文 检索 的 功能 。 

。 RESTful API: 在 使 用 JSON 数据 时 ,RESTful API 可 以 执行 大 部 分 必要 的 操作 。 
可 以 通过 发 送 JSON 文档 来 向 索引 添加 数据 、 删 除 条 目 、 更 新 条 目 , 以 及 执行 其 他 更 
多 的 操作 。 关 于 API, 我 们 将 在 本 书 中 的 后 续 章 节 中 进行 讨论 。 

。 实时 数据 可 用 性 和 分 析 : 一 旦 数据 被 索引 , 它 就 可 以 用 于 搜索 和 分 析 , 这 些 都 是 实 
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2.2 


时 的 。 

分 布 式 : Elasticsearch 允许 设置 尽 可 能 多 的 节点 来 满足 我 们 的 需求 。 集 群 将 管理 一 
切 ,并 且 它 可 以 横向 增长 到 一 个 很 大 的 数量 (如 1000 节点 )。 要 扩展 集群 ,只 需 在 具 
有 相同 集群 名 称 的 网 络 中 启动 另 一 个 节点 ,然后 它 将 会 添加 到 该 集群 中 。 
高 可 用 性 : 集群 足够 智能 ,可 以 检测 从 集群 中 添加 /删除 的 新 节点 或 失效 节点 。 当 
一 个 节点 被 添加 或 删除 后 ,程序 能 以 某 种 方式 重新 均衡 这 些 数 据 ,使 整个 集群 仍然 
可 用 。 

数据 安全 第 一 : 数据 的 任何 变化 都 会 记录 在 事务 日 志 中 ,不 仅 在 单个 节点 上 ,而 且 
在 多 个 节点 上 (在 有 节点 发 生 故 障 的 情况 下 , 它 仍然 可 用 )。 以 这 种 方式 ， 
Elasticsearch 试图 把 数据 丢失 的 概率 降 到 最 小 。 

多 租户 技术 : 在 Elasticsearch 中 ,可 以 为 索引 创建 别名 。 通 常 一 个 集群 包含 多 个 索 
引 , 这 些 别名 允许 筛选 一 个 索引 来 实现 多 租户 技术 。 


了 解 Elasticsearch 的 体系 结构 


为 了 了 解 Elasticsearch 如 何 工 作 , 我 们 必须 明白 它 的 体系 结构 。 
为 了 理解 索引 (Index) 、 类 型 (Type) ,文档 (Document) 和 字段 (Field) 如 何 协同 工作 ,让 









































我 们 参考 下 图 : 
1 x 
Type Document Field 
Type Document Field 
Type Document Field 
Index Type Document 




















如 上 图 所 示 , 索 引 包 含 一 个 或 多 个 类 型 。 类 型 可 以 认为 是 关系 型 数据 库 中 的 一 个 表 。 


类 型 有 一 个 或 多 个 文档 ,文档 中 有 一 个 或 多 个 字段 ,字段 是 由 键 值 对 构成 的 。 


集群 有 一 个 或 多 个 节点 。 集 群 由 它们 的 名 字 来 标识 。 默 认 情 况 下 ,集群 的 名 字 是 


elasticsearch。 如 果 必 须 在 同一 网 络 中 设置 多 个 Elasticsearch 实例 , 则 应 该 为 不 同 的 集群 设 
置 不 同 的 名 称 , 和 否则 所 有 节点 将 加 入 同一 个 集群 。 与 集群 类 似 , 节 点 也 有 名 称 。 可 以 给 它 分 
配 一 个 名 称 和 一 个 集群 名 。 如 果 不 提供 群集 名 称 ,那么 节点 将 自动 搜索 并 加 入 名 为 
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elasticsearch 的 集群 中 。 

如 果 不 为 节点 提供 名 称 ,那么 程序 会 分 配给 该 节点 一 个 ID 号 。 这 是 一 个 随机 的 通用 唯 
一 识别 码 (UUID) ,并 且 节 点 将 选择 这 个 ID 号 的 前 7 位 作为 其 名 称 ,这 样 每 个 节点 都 会 是 唯 
一 的 ; 
有 一 种 情况 可 能 会 发 生 : 一 个 索引 中 可 能 存储 大 量 数据 ,这 样 的 数据 量 可 能 超过 一 个 
集群 节点 所 在 硬件 的 容量 。 对 于 这 种 情况 ,索引 可 以 分 成 多 个 分 片 Cshard) 。 

分 片 的 类 型 有 两 种 : 主 分 片 和 副本 分 片 。 每 一 个 文档 在 存 人 索引 时 ,首先 被 添加 到 主 


分 片 , 然 后 添加 到 一 个 或 多 个 副本 分 片 中 。 如 果 为 集群 设置 了 多 个 节点 ,那么 副本 分 片 将 位 
于 不 同 的 节点 上 。 


默认 情况 下 ,Elasticsearch 会 创建 五 个 主 分 片 ,每 个 主 分 片 有 一 个 副 分 片 。 因 此 ,对 于 
一 个 索引 ,如 果 没 有 指定 ,那么 总 共 将 创建 10 个 分 片 。 可 以 更 改 这 个 配置 ,该 内 容 将 在 本 章 
后 面 的 Indices API 部 分 中 讲 到 。 


2.2.1 推荐 的 集群 配置 


要 搭建 一 个 能 够 正常 运行 的 集群 ,应 该 考虑 一 些 配置 问题 。 正 如 前 面 已 经 讨论 过 的 ,应 
该 为 集群 设置 一 个 集群 名 : 


cluster.name: my-cluster-name 
同样 ,每 个 节点 应 该 被 赋予 唯一 的 名 称 ,以 便 识别 : 
node.name: node-1 

另外 还 有 其 他 与 数据 路 径 .节点 发 现 等 相关 的 设置 。 
2.2.1.1 最 小 主 节 点 


在 所 有 节点 被 称 为 集群 之 前 ,可 以 指定 一 个 属性 ,让 Elasticsearch 去 找 出 具有 主 节点 
资格 的 最 小 节点 数目 。 虽 然 Elasticsearch 对 这 些 属 性 有 默认 设置 ,但 是 计划 搭建 一 个 
Elasticsearch 集群 时 ,应 该 考虑 这 个 设置 。 

使 用 此 设置 是 为 了 防止 数据 丢失 。 在 网 络 故障 或 其 他 情况 下 ,集群 可 能 选择 男 一 个 主 
节点 ,而 第 一 个 主 节 点 仍 处 于 运行 状态 ,但 无 法 访问 到 。 这 就 产生 了 一 种 被 称 为 脑 裂 (split 
brain) 的 故障 ,集群 被 分 成 两 个 不 同 的 集群 并 导致 数据 丢失 。 

为 了 避免 脑 裂 问题 发 生 ,应 在 集群 中 使 用 此 设置 。 

设 定 的 值 可 以 由 此 公式 得 出 : (总 节点 数 /2) 十 1。 

如 果 打 算 用 4 个 节点 建立 一 个 集群 ,就 应 该 将 这 个 值 设置 为 3: 


discovery.zen.minimum master nodes: 3 
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所 有 这 些 节 点 应 将 node. master 设置 为 true: 
node .master: true 


在 第 8 章 Elasticsearch API 中 的 模块 部 分 ,将 学 习 更 多 关于 节点 类 型 的 内 容 。 
2.2.1.2 本 地 集群 设置 


有 时 会 尝试 在 同一 服务 器 上 设置 多 个 实例 ,这 些 实例 可 以 共享 包含 索引 、 分 片 、 集 群 元 
数据 等 的 同一 个 数据 目录 。 为 了 在 实例 之 间 共 享 数据 ,每 个 节点 都 可 以 配置 以 下 代码 : 

path.data: /path/to/data/directory 

通常 , 当 Elasticsearch 从 ZIP/RAR 包 中 解压 并 使 用 时 ,程序 将 使 用 其 存储 目录 中 的 
data 文件 夹 作为 数据 目录 。 最 佳 的 做 法 是 ,设置 数据 目录 位 于 Elasticsearch 的 安装 目录 


之 外 。 
如 果 和 希望 将 一 个 节点 设置 为 数据 节点 ,只 需 进行 如 下 配置 : 


node .data: true 


后 将 node. master 设置 为 false。 
默认 情况 下 ,Elasticsearch 不 允许 多 个 节点 共享 同一 个 数据 目录 。 如 果 要 共享 相同 的 
数据 ,请 使 用 以 下 设置 ; 


node.max local storage nodes:2 


上 述 设置 代码 允许 两 个 实例 共享 数据 。 然 而 ,应 该 记 住 不 同类 型 的 节点 ,如 主 节点 、 数 
据 节点 等 ,不 应 该 共享 相同 的 数据 目录 。 





人 @ 不 推荐 在 一 台 机 器 上 设置 多 个 Elasticsearch 实例 的 集群 配置 。 





2.2.2 了 解 文档 处 理 


正如 我 们 所 知道 的 ,无论 何 时 创建 索引 ,都 会 创建 主 分 片 和 副本 分 片 ,每 个 分 片 都 可 以 

有 多 个 副本 。 这 个 完整 的 组 也 称 为 副本 组 (replication group)。 在 副本 组 中 , 主 分 片 可 以 作 

为 任何 对 文件 执行 索引 操作 的 切入 点 , 它 能 确保 文档 数据 和 相关 的 操作 是 有 效 的 。 如 果 一 

切 正 常 ,操作 将 会 执行 , 主 分 片上 的 操作 会 重复 执行 在 副本 分 片上 ,这 些 职责 都 是 由 主 分 片 
完成 的 。 

一 个 文档 没有 必要 被 复制 到 所 有 副本 分 片上 。 相 反 ,Elasticsearch 会 保留 应 接受 操作 

的 副本 分 片 。 这 个 分 片 的 列表 也 被 称 为 同步 副本 (in-sync copies) , 它 由 主 节 点 维护 。 通 过 

维护 这 个 列表 ,可 以 确保 操作 是 由 这 些 分 片 执行 的 ,并 且 用 户 也 得 到 了 确认 信息 。 这 个 处 理 
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模型 也 称 为 数据 复制 模型 (data-replication model) , 它 是 基于 主 备份 模型 (primary-backup 
model) 的 。 

在 主 分 片 发 生 故 障 的 情况 下 ,该 分 片 所 在 的 节点 会 向 主 节 点 发 送 一 个 消息 ,将 错误 信息 
告知 它 。 在 此 期 间 ,索引 操作 不 会 执行 ,所 有 分 片 会 等 待 主 节点 在 副本 分 片 中 定义 一 个 主 分 
片 出 来 。 

除 此 之 外 , 主 节 点 也 会 检查 所 有 分 片 的 健康 状况 ,并 且 可 以 将 (可 能 由 于 网 络 故障 或 断 
开导 致 的 ) 健 康 状况 不 佳 的 主 分 片 降级 。 主 节点 会 通知 另 一 个 节点 开始 建立 一 个 新 的 分 片 ， 
以 便于 使 系统 恢复 到 健康 的 状态 , 即 绿色 状态 。 


2.3 Elasticsearch API 


很 多 API 都 可 用 于 管理 Elasticsearch, 这 些 API 帮助 我 们 管理 集群 .索引 、 搜 索 等 。 在 
本 节 中 ,我 们 将 详细 地 了 人 解 每 一 个 API。 

我 们 可 以 通过 命令 提示 符 、Kibana 的 控制 台 , 或 者 任何 可 以 调用 RESTful API 的 工具 
来 使 用 这 些 API。 





人 默认 情况 下 ,Elasticsearch 在 9200 端口 监听 HTTP 请 求 ,Kibana 使 用 相同 的 端 
口 来 连接 到 Elasticsearch。 要 了 解 更 多 关于 控制 台 的 内 容 , 请 参阅 第 4 章 Kibana 
界面 中 的 探索 开发 者 工具 Dev Tools 部 分 。 





Sense 是 Kibana 中 的 一 个 强大 的 插件 , 它 允 许 使 用 网 络 接口 来 调用 Elasticsearch API。 
我 们 将 在 第 8 章 Elasticsearch API 学 习 Sense 插件 的 内 容 。 在 本 章 中 ,将 使 用 命令 提示 符 
程序 curl 来 通过 访问 HTTP 请 求 访问 这 些 API。 

一 个 典型 的 curl 请 求 包含 一 个 动词 ( 即 请 求 方式 )`\URL 和 消息 体 : 


$ _ curl -X{Verb} 'url' -d '{message-body}' 


动词 Verb 可 以 是 GET、.PUT、POST、DELETE 和 HEAD.URL 可 以 是 HTTP( 默 认 ) 或 者 
HTTPS。 消 息 体 通常 是 要 索引 的 文档 .执行 的 查询 ,或 者 是 要 让 Elasticsearch 执行 的 命令 。 


2.3.1 有 关 文 档 的 API 


这 些 API 允许 用 户 向 索引 中 添加 文档 ,获取 已 有 文档 ,以 及 编辑 和 删除 操作 。 这 些 
API 分 为 两 组 : 单 文档 API 和 多 文档 API。 


2.3.1.1 单 文档 API 
在 一 个 文档 上 执行 操作 时 ,这 些 API 是 适用 的 。 它 们 可 进一步 划分 为 : 
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。 索引 文档 Index API; 
。 获取 文档 Get API; 

。 删除 文档 Delete API; 
。 更 新 文档 Update API。 


1. 索引 文档 Index API 
Index API 可 以 将 一 个 JSON 文档 添加 到 索引 中 。 为 了 理解 这 一 点 ,用 图 书馆 来 举 一 
个 例子 。 向 图 书馆 中 添加 一 本 图 书 : 


$ curl -XPUT 'http://localhost:9200/library/book/1l?pretty' -d '{ 
"author" :; "Ravi Kumar Gupta", 
"title" : "Test-Driven Javascript Development", 


"pages" : 240 


食 命 令 中 URI 的 结尾 使 用 了 pretty 参数 ,来 输出 缩 进 格式 良好 的 JSON 结果 (如 果 


有 的 话 ) 。 





如 果 索 引 不 存在 ,程序 将 自动 创建 一 个 名 为 library 的 索引 ,并 将 一 本 书 的 信息 添加 到 
这 个 索引 中 。 如 果 library 索引 已 经 存在 ,那么 它 会 将 文档 添加 进去 ,除非 其 中 已 经 有 一 个 
相同 id 的 文档 存在 。 


请 看 下 面 的 这 段 代码 : 

$ curl -XPUT http://localhost:9200/library/book/1?op type=creategpretty' -d '{ 
"author" : "Ravi Kumar Gupta", 
"title" : "Test-Driven Javascript Development", 


"pages" : 240 

}' 

$ curl -XPUT 'http://localhost:9200/library/book/1/_create?pretty' -d 
沽 | 

"author" : "Ravi Kumar Gupta", 
"title" : "Test-Driven JavaScript Development", 
"pages" : 240 

}' 

在 上 面 的 代码 的 第 一 个 命令 中 ,指定 了 op_type 参数 来 设置 操作 的 类 型 ,并 将 其 值 设 
置 为 create, 也 可 以 通过 在 URI 的 结尾 添加 /_create 来 实现 执行 的 操作 。 两 者 会 有 相同 
的 输出 ,并 且 此 文档 会 被 添加 到 索引 中 。 上 默认 情况 下 .如 果 没 有 任何 具体 说 明 ( 如 前 面 代 
码 中 的 第 一 个 操作 ) ,这 个 操作 将 设置 为 create。 如 果 索 引 原 本 不 存在 ,那么 前 面 提 到 的 
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三 个 命令 中 的 任何 一 个 都 能 够 创建 一 个 library 索引 ,并 添加 一 个 包含 作者 、 标 题 和 页 数 
字段 的 条 目 。 





全 使 用 _create 或 op_type 参数 来 显 式 地 使 用 创建 命令 时 ,如 果 索 引 中 已 经 存在 具 
有 相同 的 id 的 文档 ,程序 就 会 抛 出 version_conflict_engine_exception 异常 。 











让 我 们 分 析 一 下 前 面 代码 的 输出 : 


{ 
”index": "library", 
" type" : "book", 
ey 
"version" : 1, 
"result" : "created", 
» harde™ st 
"Eotal™ 7 
"successful" : 1, 
"failed" : 0 
}， 
"created" : true 
} 


这 样 的 输出 表明 文档 已 添加 到 名 为 library 的 索引 中 ,并 且 指定 的 类 型 (type) 为 book。 
文档 的 id 为 1,version 为 1,result 的 值 设 置 为 created,created 值 为 true 表明 操作 成 功 。 如 
果 索 引 中 相同 的 文档 已 经 存在 ,执行 同样 的 操作 时 ,将 得 到 result 的 值 为 updated，version 
将 更 新 到 下 一 个 值 , 在 这 里 就 是 2, 并 且 created 的 值 将 为 false。 这 里 的 shard 显示 其 总 共 
有 两 个 分 片 ,其 中 文件 被 成 功 复制 到 一 个 分 片上 。 如 果 成 功 结果 的 值 至 少 为 一 个 ,那么 操作 
就 是 成 功 的 。 

在 默认 情况 下 会 创建 五 个 分 片 ,每 个 分 片 有 一 个 副本 。 在 五 个 分 片 中 ,有 两 个 被 选择 用 
于 索引 文档 。 执 行 成 功 的 分 片 数 量 也 取决 于 集群 设置 。 如 果 只 有 一 个 节点 ,那么 副本 将 不 
会 出 现 。 另 外 要 注意 到 ,此 时 集群 /节点 的 健康 状态 是 黄色 的 , 即 亚 健康 状态 ,那么 成 功 的 值 
往往 小 于 分 片 数 。 如 果 在 集群 中 设置 了 多 个 节点 , 则 值 可 能 是 相同 的 。 下 面 是 在 两 个 节点 
的 集群 处 理 相同 命令 的 输出 结果 : 





{ 
" index": "library", 
" type": "book", 
wm id": "1", 


" version": 1, 
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"result"”: "created", 
" shards™": { 
"total": 2, 


"successful": 2, 
"failed": 0 
}, 
"created": true 
} 


正如 我 们 所 看 到 的 ,文档 被 正确 地 复制 了 。 需 要 的 是 输出 信息 中 successful 字段 后 面 
的 一 个 正 值 。 只 要 有 一 个 分 片 /副本 可 用 ,文档 就 可 以 被 复制 到 多 个 分 片 /副本 中 。 

请 注意 ,已 经 使 用 一 条 URI, 即 /library/book/1/_create, 添 加 了 一 个 值 为 1 的 id。 如 果 
想 自动 生成 这 个 id, 我 们 可 以 在 curl 中 使 用 POST 方式 来 代 蔡 PUT 方式 。 

如 果 使 用 POST 方式 执行 ,那么 即使 索引 不 存在 , 它 也 会 自动 创建 索引 和 id。 

让 我 们 来 添加 另 一 本 书 的 信息 : 





$ curl -XPOST 'http://localhost:9200/library/book?pretty' -d '{ 
"author" : "Yuvraj Gupta", 
"title" : "Kibana Essentials", 
"pages" : 210 
}' 
现在 ,分 析 一 下 输出 信息 会 是 什么 内 容 : 
{ 
" index" : "library", 


" type" : "book", 
"” id" : "AVSPSXXDxiIiqkaLJfTy", 


"version" : 1, 
"result" : "created", 
" shards" : { 
WEotal”® s 2 
"successful" : 1, 
"failed" :0 
}, 
"created”" : true 


一 切 都 是 相似 的 ,但 id 的 值 是 由 Elasticsearch 自动 生成 的 。 
默认 情况 下 ,Elasticsearch 基于 文档 的 id 决定 将 文档 放 在 哪 一 个 分 片上 。 使 用 文档 的 
id ,程序 会 计算 出 一 个 哈 希 值 ,并 决定 选择 一 个 还 是 多 个 分 片 。 为 了 替代 Elasticsearch 的 基 
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于 id 做 出 的 决定 ,可 以 提供 一 个 值 来 用 于 计算 哈 希 值 。 分 片 分 配 shard allocation 的 过 程 称 
为 routing, 我 们 可 以 在 查询 的 URI 中 使 用 一 个 routing 参数 ,如 下 面 的 命令 所 示 : 


$ curl -XPOST 'http://localhost:9200/library/book?pretty&routing=books' -d 
"author" :; "Yuvraj Gupta", 
"title" : "Kibana Essentials", 
"pages" : 210 
}' 
在 前 面 的 示例 中 ,routing 参数 被 指定 为 books, 程 序 会 根据 这 一 参数 计算 出 一 个 喻 希 
值 。 这 本 名 为 Kibana Essentials 的 书 将 被 放 和 人 一 个 基于 该 哈 希 值 所 决定 的 分 片 中 。 


2. 获取 文档 Get API 
该 Index API 添加 一 个 文档 到 索引 中 ,Get API 用 来 根据 文档 的 id 来 获取 文档 数据 。 


下 面 获取 id 为 1 的 文档 : 
$ curl -XGET 'http://localhost:9200/library/book/1? pretty' 


使 用 GET 方式 来 获取 文档 ,并 提供 包含 文档 id 的 URI。 输出 如 下 面 的 代码 所 示 : 


{ 
"_ index" : "library", 
" type" : "book", 
a 
”Version" : 1, 


"found" : truey 


”Source" : { 
"author" : "Ravi Kumar Gupta", 
"title" : "Test-Driven Javascript Development", 


"pages" : 240 


} 


我 们 可 以 看 到 ,输出 信息 包括 与 文档 相关 的 信息 ,如 索引 的 名 称 、 类 型 .id、 版 本 等 。 返 
回信 息 中 found 的 值 显示 了 文档 及 其 id 是 否 存 在 ,source 对 象 包含 实际 已 索引 的 文件 。 
为 了 检查 文档 是 否 存在 ,也 可 以 使 用 HEAD 方式 。 让 我 们 看 一 下 这 个 操作 : 


$ curl -XHEAD -i 'http://localhost:9200/library/book/2' 
HTTP/1.1 404 Not Found 
Content-Type: text/plain; charset=UTF-8 
Content-Length: 0 
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$ curl -XHEAD -i 'http://localhost:9200/library/book/1' 
HTTP/1.1 200 OK 

Content-Type: text/plain; charset=UTF-8 
Content-Length: 0 


获取 文档 时 ,搜索 结果 中 表 头 的 source 展示 了 实际 的 文档 内 容 。 如 果 熟 悉 Kibana 控 
制 台 并 且 尝试 相同 的 命令 操作 ,可 能 会 看 到 一 个 报错 。 这 是 关于 Kibana 控制 台 的 一 个 已 知 
问题 ,可 以 访问 网 站 https://github. com/elastic/kibana/issues/9141 来 了 解 。 我 们 将 在 第 
4 章 Kibana 界面 中 学 习 到 Kibana 控制 台 的 有 关内 容 。 

有 时 可 能 不 想 检索 整个 内 容 , 而 只 需要 检索 其 中 的 少数 字段 ,或 者 根本 不 需要 source 
字段 中 的 内 容 : 

Curl -XGET 'http://localhost:9200/1library/book/1? _source=false' 

前 面 的 代码 从 输出 信息 中 排除 了 source 字段 的 内 容 。 要 跳 过 一 些 字段 ,例如 ,如 果 不 
想得到 pages 字段 ,应 执行 以 下 命令 : 

Curl -XGET 'http://localhost:9200/library/book/1? _source exclude=pages' 

如 果 只 需要 author 字段 ,并 跳 过 所 有 其 他 字段 ,应 执行 以 下 命令 : 

Curl -XGET'http://localhost:9200/library/book/1? _source include=author' 

可 以 同时 利用 _source_include 和 _source_exclude。 当 一 个 文件 有 许多 个 字段 ,并 且 希 
望 通过 请 求 更 少 的 字段 来 降低 网 络 开销 ,这 样 的 设置 是 有 帮助 的 。 为 了 理解 这 一 点 ,将 一 本 
书 连同 类 别 一 起 插入 到 Elasticsearch 索引 中 : 

Curl -XPUT "http://localhost:9200/library/book/4/_create? pretty" -d' 

{ 

"author" : "Ravi Kumar Gupta", 


"title" : "Test-Driven JavaScript Development", 


"pages" : 240, 


"category" : [ 
{"name":"Technology","subcategory": "Javascript"}, 
{"name":"Methodology","subcategory": "development"} 


] 
}' 


现在 如 果 想 要 得 到 文档 类 别 , 同 时 跳 过 子 类 别 , 可 以 使 用 下 面 的 命令 : 


curl -XGET http://localhost:9200/library/book/4? 
_source include=category& source exclude=* .subcategory 
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前 面 命 令 的 响应 如 下 : 


‘ 
" index": "library", 
"type": "book", 
A 
和 
" version": 1, 
"found": true, 
"_source": { 
"category": [ 
{ 
"name": "Technology" 
}, 
{ 
"name": "Methodology" 
} 


} 
只 需要 使 用 _source_include, 可 以 使 用 以 下 代码 : 
curl -XGET 'http://localhost:9200/1ibrary/book/1?_source=author' 
返回 信息 将 只 包括 author, 并 排除 了 其 他 所 有 信息 。 
有 时 可 能 只 需要 source 字段 ,在 这 种 情况 下 ,可 以 使 用 以 下 命令 : 
curl -XGET 'http://localhost:9200/1ibrary/book/1/_source' 


也 可 以 使 用 _source_include 和 _source_exclude 来 排除 或 包含 source 的 字段 。 同 样 ,使 
用 相同 的 uri 和 HEAD 方式 ,可 以 查看 一 个 文档 是 否 存在 。 

有 时 可 能 不 关心 文档 属于 哪 一 个 类 型 .而 希望 用 id 来 检索 一 个 文档 。 对 于 这 样 的 情 
[以 指定 类 型 为 _all, 将 会 得 到 任何 类 型 中 第 一 个 匹配 的 id 文档 : 





况 ， 


=| 


curl -XGET 'http://localhost:9200/library/ all/1/_source' 
curl -XGET 'http://localhost: 9200/library/_all/1' 
在 创建 索引 时 ,可 以 显 式 地 指定 储存 哪 一 个 字段 。 例 如 ,如 果 用 以 下 映像 创建 一 个 
library 索引 ,应 执行 以 下 命令 : 





curl -XPUT "http://localhost:9200/library" -d' 
{ 
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"mappings": { 
"book": { 
"Properties": { 
"author": { 
"type": "keyword", 


"store": true 


"Pages": { 
"type": "integer", 


"store": false 


请 注意 ,在 library 索引 已 经 存在 的 情况 下 ,执行 前 面 的 命令 将 抛 出 index_already_ 
exists_exception 异常 。 之 后 ,添加 一 本 id 为 1 的 一 本 书 的 信息 ,类 似 于 以 前 添加 的 内 容 。 
现在 ,通过 下 面 的 命令 传人 stored_field 参数 时 ,程序 将 允许 以 数组 的 形式 获得 存储 的 
字段 : 

Curl -XGET "http://localhost:9200/1library/book/1? stored fields=author,pages" 

我 们 将 得 到 以 下 输出 : 


{ 





" index": "library", 





" type DOOKw7 
后 he 
”Version": 1， 
"found": true, 
"fields": { 
"author™"e [ 


"Ravi Kumar Gupta" 


} 
所 有 存储 的 字段 将 被 返回 为 数组 。 
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3. 删除 文档 Delete API 
Delete API 可 从 索引 中 删除 文档 ,我 们 可 以 以 DELETE 方式 来 实现 : 


Curl -XDELETE 'http://localhost:9200/library/book/1?pretty' 


下 面 的 JSON 即 为 返回 结果 : 





{ 
"found" : true, 
" index" : "library", 
"type" : "book", 
ee 


" version" : 2, 


"result" : "deleted", 
”shards" : { 
"total™” 人 5 
"successful" : 1, 
"failed" : 0 


} 


如 果 文 档 存在 ,found 值 将 为 true, 并 且 文 档 将 被 删除 。 





合 每 一 个 写 操作 ,包括 删除 操作 ,数据 中 version 字段 的 值 都 会 加 1 。 





4. 更 新 文档 Update API 

Update API 可 以 更 新 文档 。 更 新 是 通过 编写 的 脚本 来 实现 的 。 更 新 时 ,程序 从 索引 中 
获取 文档 ,在 文档 上 运行 脚本 ,并 将 数据 重新 存 和 人 索引。 下 面 .在 之 前 添加 过 的 书 中 ,增加 一 
个 类 别 : 


curl -XPOST 'http://localhost:9200/library/book/1/_update?pretty' -d '{ 
"sceript"” : { 
"inline" : "ctx._source.category =\"category\"", 
"lang": "painless", 
"params" : { 


"category" : "Technical" 
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人 早期 版 本 的 Elasticsearch 默认 情况 下 使 用 Groovy 脚本 语言 。 最 新 版 本 的 
Elasticsearch( 例 如 5. x) 使 用 了 一 个 新 开发 的 脚本 语言 ,并 将 其 敌人 到 Elasticsearch 
中 。 这 种 语言 被 称 为 Painless, 它 的 语法 与 Groovy 相似 。 本 章 后 续 部 分 进一步 介绍 这 
种 语言 。 无 论 什么 时 候 需 要 使 用 脚本 ,都 可 以 简单 地 指定 lang 字段 的 值 为 painless。 
我 们 将 在 整个 章节 中 默认 使 用 Painless 脚本 。 











如 果 遇 到 一 个 文件 丢失 的 错误 ,这 可 能 是 因为 在 之 前 的 Delete API 部 分 尝试 操作 时 删 
除了 id 为 1 的 书 , 此 时 只 需 尝试 再 添加 一 本 书 的 信息 。 

在 这 里 ,如 果 不 存在 category 字段 ,正在 运行 的 inline 脚本 将 添加 此 字段 。 如 果 存 在 
category 字段 , 则 会 更 新 这 个 字段 : 

"inline" : "ctx._ source.category =category" 

在 上 面 的 命令 中 ,正在 指定 _source. category, 它 将 从 param 对 象 的 param 类 型 中 得 
到 值 。 


ctx 映像 包含 _index、_type、_id、_version、_routing、_ parent、 timestamp、_ ttl 和 
_source 等 变量 。 


运行 前 面 的 命令 ,将 产生 以 下 JSON 格式 的 结果 : 


{ 
"_index" : "library", 
"_type" : "book", 
min; wn 
"_version" : 2, 
"result" : "updated", 
"_shards" : { 
"total" : 2, 
"successful" :1 
"failed" : 0 
} 
} 


现在 ,id 为 1 的 书 的 category 字段 值 为 Technical。 在 这 样 的 情况 下 ,如 果 需 要 ,可 以 通 
过 使 用 ctx. _source. remove() 来 删除 一 个 字段 : 


$ curl -XPOST 'http://localhost:9200/library/book/1/_update?pretty' -d 
"script" : "ctx._source.remove ("category")", 


"lang" : "painless" 
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} 
甚至 可 以 设置 一 个 条 件 , 然 后 做 一 个 更 新 : 


"inline" : "ctx._ source.category.contains (category) ? 

ctx.op ="delete" : ctx.op ="none" 

按照 前 面 的 命令 , 它 将 检查 类 别 category 的 字段 中 是 否 包含 一 个 叫 作 Technical 的 值 ， 
如 果 是 , 则 删除 该 文档 ,否则 什么 也 不 做 。 

在 这 种 情况 下 ,也 可 以 部 分 更 新 文档 ,只 需要 提供 想 要 更 新 的 字段 即 可 : 


$ curl -XPOST 'http://localhost:9200/library/book/1/ update?pretty' -d 
和 
"doc" :1{ 


"pages" : 250 


}' 
前 面 的 代码 只 更 新 id 为 1 的 书 的 页 数 ,在 这 种 情况 下 这 个 值 被 合并 。 在 script 和 doc 
同时 出 现在 命令 中 时 ,doc 将 会 被 忽略 ,只 有 script 会 运行 。 
如 果 source 与 旧 文 档 不 同 ,文档 就 会 被 重新 索引 。 如 果 要 更 新 文档 ,即使 source 没有 
变化 ,也 可 以 通过 设置 detect_noop 为 false 来 实现 : 


$ curl -XPOST 'http://localhost:9200/library/book/1/_update?pretty' -d 
可 
"doc" : { 
"pages" : 250 
}, 
"detect noop" : false 


}' 
参考 下 面 的 代码 : 
$ curl -XPOST 'http://localhost:9200/library/book/3/_update?pretty' -d 


过 





"script" 





"inline" : "ctx._source.category ="category"", 
"lang": "painless", 
"Params" : { 
"category" : "Technical" 
} 
}, 
"upsert" : { 
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"category" : "Technical" 


}' 
如 果 该 文件 不 存在 指定 的 id( 这 种 情况 下 是 3) ,那么 upsert 操作 中 的 值 将 用 于 创建 一 
个 新 的 文档 。 也 可 以 用 scripted_upsert, 其 中 的 脚本 能 够 处 理 文档 的 初始 化 ,这 可 以 代替 
upsert 操作 。 应 该 设置 scripted_upsert 属性 为 true。 
如 果 要 将 doc 的 内 容 作为 新 文档 使 用 , 则 可 以 跳 过 添加 upsert 的 步骤 。 此 时 ,可 以 设 
置 doc_as_upsert 为 true, 并 且 在 操作 中 跳 过 添加 upsert 的 部 分 : 


$ curl -XPOST 'http://localhost:9200/library/book/5/ update?pretty' -d 
滞 , 
pe" st 
"pages" : 250 
}, 
"doc as upsert" : true 
}' 


2.3.1.2 多 文档 API 


下 面 的 API 支持 对 多 个 文档 的 操作 。 类 似 于 单 文档 API, 它 们 也 可 以 被 划分 为 不 同 
种 类 。 


1. Multi-get API 

顾名思义 ,这 个 API 可 一 次 获得 多 个 文档 。 需 要 提供 index、type 和 id 的 信息 ,其 中 
index 是 必须 提供 的 ,而 type,id 可 选 。 如 果 想 获得 id 为 1 和 5 的 文档 ,可 以 执行 如 下 所 示 
的 命令 : 


$ curl -XGET 'http://localhost:9200/ mget?pretty' -d 
'{ 
"docs" : [ 
{ 
"_index" : "library", 
和 
}, 
t 
"_index" : "library", 
"id":5 
了 
] 
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}' 

以 数组 的 形式 查询 docs 的 内 容 ,在 返回 数据 中 可 得 到 一 系列 文档 。 如 果 知道 所 有 的 文 
件 都 来 自 相 同 的 索引 ,那么 可 以 在 URI 中 指定 索引 的 名 字 , 并 且 在 命令 中 ,使 用 'http:// 
localhost: 9200/library/_mgetpretty', 来 代替 http://localhost:9200/_mgetpretty'。 

这 样 的 情况 同样 适用 于 如 下 类 型 ,可 以 在 命令 中 使 用 'http://localhost: 9200/library/ 
book/_mgetpretty', 来 代替 'http://localhost: 9200/_mgetpretty'。 

按照 上 述 方法 更 改 了 命令 的 写法 之 后 , 原 有 命令 中 的 _id 部 分 就 发 生 了 重复 。 在 这 种 
情况 下 ,可 以 进一步 更 改 请 求 的 写法 ,在 命令 中 写 人 _ids 参数 , 它 将 包含 _id 的 数组 。 更 改 后 
的 命令 是 这 样 的 : 











Curl -XGET 'http://localhost:9200/library/ mget?pretty' -d '{ 
“de"™ : [Li Sl 
}' 
或 者 如 下 : 
Curl -XGET 'http://localhost:9200/library/book/ mget?pretty' -d '{ 
vis" E17 5 
外 
如 果 不 想 指定 类 型 的 字段 , 则 要 么 将 类 型 的 位 置 留 空 ,要 么 使 用 _all 来 代替 。 在 这 种 情 
况 下 ,程序 会 返回 所 有 类 型 的 文档 中 第 一 个 匹配 到 指定 ids 的 文档 数据 。 
在 结果 集中 ,所 有 文档 也 将 包含 _source 字段 。 如 果 想 跳 过 它 或 只 想 要 其 中 的 一 部 分 字 
段 ,可 以 像 单 文档 中 的 Get API 那样 ,用 _source、source_include 和 _source_exclude 作为 
URL 参数 。 对 于 _source 的 使 用 方法 如 下 面 代码 所 示 : 


Curl -XGET 'http://localhost:9200/library/book/ mget?pretty' -d '{ 


“Dos” se 
{ 
"_index" : "library", 
i 
"_source" : ["author"] 
}, 


{ 
"_index" : "library", 
" id" :5, 
"source" :{ 
"include" : ["author"], 
"exclude" : ["pages"] 


下 
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j， 
在 docs 中 的 第 一 部 分 .我 们 只 想得到 author 的 数据 ,并 排除 其 他 所 有 数据 。 第 二 部 分 
在 某 种 程度 上 也 是 相似 的 ,我 们 想得到 author 的 数据 ,并 排除 pages 的 数据 。 
类 似 地 ,也 可 以 检索 字段 的 信息 ,并 指定 一 个 字段 的 数组 作为 值 。 只 有 给 定数 组 中 的 
stored_fields 数据 将 被 返回 。 甚 至 可 以 在 URL 中 设置 一 个 默认 的 stored_fields 返回 列表 ， 
对 每 个 文档 也 是 如 此 : 





$ curl 'http://localhost:9200/library/book/ mget? stored_fields=author'-d '{ 


WOGS 3 E 


5 
"stored fields":["pages"] 
} 
] 

pt 

前 面 的 操作 将 针对 未 显 式 定义 的 字段 来 获得 所 有 文档 中 author 字段 的 数据 。 对 于 id 
为 5 的 文档 ,只 有 pages 字段 被 映射 为 已 存储 字段 (stored field) 时 ,才能 得 到 返回 的 pages 
字段 。 

2. Bulk API 

有 时 需要 对 大 量 文档 进行 批 操作 ,而 Bulk API 将 会 在 这 种 情况 下 起 作用 。 可 以 通过 使 
用 这 种 API 来 索引 创建 .删除 和 更 新 文档 ,可 以 使 用 如 下 所 示 的 API: 

/bulk 


/index/ bulk 
/index/type/_ bulk 


2.3.2 有 关 搜 索 的 API 
这 些 API 可 以 帮助 用 户 搜索 一 个 或 多 个 索引 .下 面 将 更 详细 地 探讨 这 些 API。 
2.3.2.1 搜索 API 


这 个 API 可 搜索 一 个 或 多 个 索引 ,以 及 零 个 或 多 个 类 型 。 搜 索 操 作 可 以 通过 两 种 方式 


进行 : 
返 
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在 搜索 URI 中 写 人 查询 参数 ,或 者 在 请 求 中 使 用 领域 特定 语言 (DSL) 查 询 。 操 作 将 
回 命中 的 文档 数量 ,这 一 数量 即 为 查询 结果 的 数量 。 


在 这 种 方法 中 ,可 使 用 *q 二 ”来 指定 搜索 参数 。 例 如 ,如 果 想 搜索 作者 名 字 包 含 gupta 
的 所 有 图 书 , 可 以 使 用 GET 方式 查询 : 


$ curl -XGET 'http://localhost:9200/library/_search?q=author:guptagpretty' 


执行 这 个 命令 将 返回 以 下 JSON 格式 的 结果 : 


}, 


{ 


"took" : 4, 
"timed out" : false, 
"_shards" : { 
bk 司 
"successful" : 5, 
"failed" : 0 
hits™" :1 
和 
"max_score" : 0.37158427, 
"he 


"_index" : "library", 

"_type" : "book", 

"_id" : "AVSPSXXDxiIiqkaLJfTy", 
"_score" : 0.37158427, 


"_source" :{ 


"author" : "Yuvraj Gupta", 
"title" : "Kibana Essentials", 
"pages" : 210 





"_score" : 0.2972674, 


"_source" :{ 
"author" : "Ravi Kumar GuPta"， 
"title" : "Test-Driven JavaScript Development", 
"pages" : 250, 
"category" : "Technical" 
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再 汪 
} 
} 
正如 我 们 所 看 到 的 ,得 到 了 Kibana Essentials 和 Test-Driven Javascript 这 两 个 命中 的 
结果 。 
与 POST/PUT 操作 不 同 ,GET 操作 的 结果 中 将 会 返回 _shards 部 分 的 总 分 片 数 。 
在 前 面 的 调用 过 程 中 ,没有 指定 任何 类 型 。 如 果 要 指定 类 型 ,可 以 调用 以 下 命令 : 


$ curl -XGET 'http://localhost:9200/library/book/_search? q=author:guPpta&spretty' 
如 果 有 多 个 索引 或 多 个 类 型 ,可 以 使 用 以 下 方法 进行 搜索 : 


$ curl -XGET 'http://localhost:9200/library,users/_search? q=author:guptagpretty' 
$ curl-XGET 
'http://localhost:9200/1library/book,journal/_search?q=author:guptagpretty' 


全 如 果 在 搜索 时 没有 找到 索引 ,程序 会 抛 出 index_not_found_exception 异常 。 





如 果 想 搜索 所 有 的 索引 和 类 型 ,可 以 跳 过 在 URI 中 指定 索引 和 类 型 的 步 又， 

$ curl -XGET 'http://localhost:9200/_search? q=author:guptagpretty' 

可 以 在 其 中 指定 任意 数量 的 索引 和 类 型 (用 逗号 分 隔 ) 。 

2.3.2.2 搜索 分 片 API 

这 个 API 可 在 执行 搜索 时 获取 索引 和 分 片 。 在 搜索 时 ,可 以 提供 逗号 分 开 的 索引 和 类 
型 。 为 了 理解 这 一 点 ,让 我 们 看 看 下 面 的 URI: 

$ curl -XGET 'http://localhost:9200/library/_search shards? pretty' 

执行 这 条 命令 ,将 返回 所 有 用 于 搜索 和 索引 的 分 片 。 我 们 可 以 提供 一 个 routing 的 值 : 


$ curl - XGET 'http://localhost: 9200/library/_search_shards? Pretty&routing= 
gupta' 


现在 将 得 到 一 个 简短 的 列表 ,当然 也 可 以 指定 多 个 routing 值 ( 用 逗号 分 隔 ) 。 
2.3.2.3 多 搜索 Multi-search API 


这 种 API 可 一 次 执行 多 个 搜索 操作 .我 们 需要 提供 一 个 包含 搜索 请 求 头 部 和 主体 部 分 
的 文件 。 请 求 头 的 部 分 指定 索引 、 要 搜索 的 类 型 、search_type、 首 选项 和 routing。 主 体 部 分 
包含 查询 ,来源 , 大 小 .聚合 等 。 例 如 ,思考 以 下 内 容 : 
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{"index" : "library", "type" : "book" } 

{"query" : {"term" :{"author" : "gupta"}} } 

在 上 述 的 代码 中 ,第 一 行 是 头 部 ,第 二 行 是 主体 部 分 。 在 文件 中 有 尽 可 能 多 的 键 值 对 。 
一 旦 准备 好 了 查询 , 即 可 使 用 GET 方式 来 操作 。 假 设 将 所 有 查询 命令 放 在 一 个 名 为 
queries 的 文件 中 : 


curl - XGET ' http://localhost: 9200/_msearch? Pretty ' - - data - binary @ 


queries; echo 


使 用 --data-binary, 可 以 指定 包含 所 有 头 部 和 主体 的 文件 ,@dqueries 是 文件 名 。 





2.3.2.4 计数 API 


正如 其 名 称 所 示 ,这 个 API 可 以 用 来 获取 查询 结果 的 匹配 数量 ,可 以 使 用 _count 参数 
来 获得 匹配 结果 的 数量 : 

Curl -XGET 'http://localhost:9200/library/book/_count?pretty' -d '{ 

"query" : { 

"term" : {"author" : "gupta"} 

} 
中 
这 一 操作 的 返回 结果 如 下 : 


{ 
nceount™" s 2 


" shards": { 
tal 25 
"successful" : 5, 
"failed" : 0 


} 
结果 显示 在 这 五 个 分 片 之 中 ,有 两 个 匹配 到 了 文档 。 
2.3.2.5 验证 API 


如 果 正 在 对 敏感 数据 进行 查询 ,或 者 要 花费 太 多 的 时 间 , 以 及 其 他 原因 ,就 可 以 先 对 查 
询 进 行 验证 ,然后 再 执行 查询 。 这 个 API 可 在 执行 查询 之 前 ,验证 这 个 查询 是 否 有 效 。 
为 了 使 用 这 个 API, 可 以 使 用 /_validate/ query: 


$ curl -XGET'http://localhost:9200/library/book/ validate/query?pretty' -d '{ 
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"query" :{ 
"term" : {"author" : "gupta"} 
} 
}' 


该 操作 将 针对 验证 的 字段 返回 true 或 false 的 结果 。 
2.3.2.6 结果 解释 API 


这 个 API 解释 了 查询 指令 和 特定 文档 的 分 值 计算 ,可 以 使 用 /_explain 来 实现 这 个 目 
的 。 在 这 个 操作 中 ,需要 提供 一 个 索引 和 一 个 类 型 ， 

$ curl -XGET 'http://localhost:9200/library/book/1/ explain?pretty' -d 

| 

"query" : { 
"term" : {"author" : "gupta"} 
} 
}' 


在 以 上 命令 中 ,查询 了 id 为 1 的 图 书 ,查询 中 指定 了 作者 的 名 字 为 gupta。 
2.3.2.7 分 析 Profile API 


有 时 查询 可 能 会 非常 缓慢 ,这 个 API 可 以 帮助 我 们 了 解 底层 网 络 传输 的 细节 ,找到 哪 
个 查询 组 件 花 费 了 多 长 时 间 , 以 便 分 析 和 执行 操作 。 此 API 仍然 是 在 ES 5. x 版 本 中 的 实 
验 性 功能 。 为 了 在 调用 API 过 程 中 启用 Profile, 可 以 执行 以 下 代码 : 
$ curl -XGET "http://localhost:9200/library/_search? q=author :guptagpretty" -d' 
{ 
"profile": true 
}' 
在 结果 中 ,通常 会 看 到 基本 信息 及 信息 的 命中 数量 ,但 是 现在 也 会 有 详细 的 指标 分 析 信 
息 。 在 通过 查询 搜索 到 的 索引 中 ,上 述 命令 会 对 其 中 每 个 分 片 的 各 项 指标 进行 分 析 。 这 里 
面包 含 完 整 的 查询 执行 细节 。 
X-Pack 插件 中 也 提供 了 一 个 这 样 的 分 析 器 ,可 参见 第 9 章 的 相关 内 容 。 


2.3.2.8 字段 统计 信息 API 


这 个 API 提供 了 针对 一 个 或 多 个 字段 的 统计 信息 ,可 以 使 用 _field_stats 来 获取 。 
例如 : 
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$ curl -XGET 'http://localhost:9200/ field stats?pretty&fields=pages' 


默认 情况 下 ,上 述 操 作 会 以 cluster( 集 群 ) 级 别 执行 。 与 命令 中 的 fields 类 似 , 还 可 以 使 
用 一 个 level 来 定义 其 为 cluster( 集 群 ) 级 别 还 是 indices (索引 ) 级 别 。 这 个 结果 展示 了 分 
片 、 计 数 、 最 小 值 、 最 大 值 密度 等 诸多 指标 。 


{ 
"_shards": { 
"eotal™s 5 
"successful": 5, 
"failed": 0 
}, 
"indices": { 
ww 
"fields": { 
"pages": { 
"type": "integer", 
"max_doc": 2, 
"doc count": 2, 
"density": 100, 
"sum doc freq": -1, 
"sum total term freq": 2, 
"searchable": true, 
"aggregatable": true, 
"min value": 210, 
"min value as string": "210", 
"max_value": 240, 


"max value as string": "240" 


如 果 有 任何 值 为 一 1, 则 意味 着 该 字段 的 度量 对 于 一 个 或 者 多 个 分 片 不 可 用 。 
这 个 API 有 助 于 找 出 最 小 值 . 最 大 值 . 词 项 计数 等 。 它 也 是 实验 性 的 ,可 以 在 今后 的 发 
行 版 本 中 删除 。 


2.3.3 有 关 索 引 的 API 
索引 API 可 以 帮助 我 们 构建 和 管理 索引 ,设置 .映像 .别名 和 模板 。 本 节 将 介绍 它 提供 
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的 功能 。 
2.3.3.1 管理 索引 


本 节 介绍 创建 .更 新 、 删 除 索 引 和 设置 的 方法 。 


1. 创建 一 个 索引 
要 创建 索引 ,可 使 用 带 有 curl 的 PUT 方式 。 在 创建 索引 时 ,可 以 指定 一 些 设置 ,例如 
分 片 .映像 .别名 等 。 要 创建 具有 所 有 默认 设置 的 索引 ,可 以 使 用 以 下 内 容 : 








$ curl -XPUT 'localhost:9200/library’' 
执行 该 命令 将 尝试 创建 一 个 名 为 library 的 索引 ,如 果 可 以 完成 的 话 , 输 出 将 是 : 
{"acknowledged":true} 


此 操作 将 在 library 索引 中 创建 五 个 主 分 片 和 五 个 副 分 片 (一 个 主 分 片 对 应 一 个 副 分 
片 ), 可 以 更 改 映像 和 别名 的 设置 。 让 我 们 看 一 个 更 复杂 的 例子 : 


$ curl -XPUT 'http://localhost:9200/library' -d '{ 
"settings" : { 
"number of shards" : 2, 
"number of replicas" :1 
} 
}' 


上 述 操 作 将 为 索引 创建 两 个 主 分 片 ,每 个 主 分 片 拥有 一 个 副 分 片 。 


合 一 个 索引 被 创建 后 , 如果 尝试 重复 创建 ,那么 程序 可 能 会 抛 出 index_already_ 


exists_exception 错误 异常 。 





2. 检查 索引 是 否 存 在 

可 以 在 curl 命令 中 以 HEAD 方式 来 检查 一 个 索引 是 否 存在 。 例 如 ,检查 library 索引 
是 否 存在 : 

$ curl -XHEAD -i 'http://localhost:9200/library' 

HTTP/1.1 200 OK 


Content-Type: text/plain; charset=UTF-8 
Content-Length: 0 


如 果 状 态 码 为 404, 则 表示 索引 不 存在 。 


3. 获取 索引 信息 
可 以 使 用 以 下 方式 获得 有 关 索 引 的 信息 : 


大 二 全 
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$ curl -XGET 'localhost:9200/library?pretty' 


执行 该 命令 将 显示 关于 library 的 索引 信息 ,其 中 包括 别名 、 映 像 、 设 置 和 warmer。 设 
置 包 含 分 片 信息 、 创 建 时 间 ,版 本 等 。 








{ 
nbrary"> 二 
"aliases": {}, 
"mappings": { 
"book": { 
"properties": { 
"author": { 
"type": "keyword", 
"store": true 
}， 
"pages": { 
"type": "integer" 
]} 
"title": { 
"type": "keyword", 
"store": true 
} 
} 
} 
}, 
"settings": { 
"index": { 
"creation date": "1484693593662", 
"number of shards": "5", 
"number of replicas": "1", 
和 WltscieT60aWClNnhguaAQ", 
"version": { 
"created": "5010199" 
}, 
"provided name": "library" 
和 
本 
} 


} 


如 果 没 有 可 用 的 信息 ,就 会 返回 一 个 空 数 组 ,在 别名 中 也 是 一 样 的 结果 。 
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八 如 果 尝 试 对 不 存在 的 索引 查询 信息 、 那么 程序 可 能 会 抛 出 index_not_found_ 


exception 异常 。 











4. 管理 索引 设置 
如 果 想 得 到 的 只 是 设置 的 内 容 , 则 可 以 在 命令 中 使 用 /{index}/_settings: 


$ curl -XGET 'http://localhost:9200/library/_settings?pretty' 

{index} 的 部 分 也 可 以 指定 多 个 索引 ,各 个 索引 名 称 之 间 以 逗号 分 隔 。 

可 以 使 用 通配符 来 匹配 索引 ,还 可 以 在 创建 索引 后 更 新 设置 。 可 以 以 PUT 方式 使 用 
相同 的 {index)/_settings, 来 完成 更 新 ,设置 将 会 是 动态 更 新 的 。 如 果 不 指 定 任何 内 容 , 程 
序 会 更 新 全 部 索引 的 设置 : 

$ curl -XPUT 'http://localhost:9200/library/_settings?pretty' -d '{ 

"index" : { 
"number of replicas" : 2 
} 
}! 

上 述 操作 将 在 library 索引 上 为 每 一 个 主 分 片 设置 两 个 副 分 片 。 

到 目前 为 止 ,我 们 已 经 了 解 了 创建 ,编辑 .打开 和 关闭 操作 。 除 此 之 外 ,可 以 通过 检查 统 
计 信 息 ,分 片 存储 信息 ,恢复 信息 和 段 信息 来 对 索引 进行 监控 。 

5. 获得 索引 的 统计 信息 

此 操作 可 以 获得 有 关 索 引 的 统计 信息 。 它 会 显示 文件 .索引 大 小 、 索 引 状态 .搜索 .字段 
数据 ,更 新 .合并 .请求 缓存 .刷新 .建议 以 及 其 他 统计 信息 。 为 了 获得 索引 的 统计 信息 ,可 以 
执行 以 下 命令 : 

$ curl -XGET 'http://localhost:9200/library/_stats?pretty' 

可 以 提供 以 逗号 分 隔 的 多 个 索引 ,以 便 一 次 获得 多 个 索引 的 统计 信息 :还 可 以 指定 要 获 

取 哪 些 特 定 的 统计 信息 ,如 下 面 的 命令 所 示 : 


$ curl -XGET 'http://localhost:9200/library/_stats/docs,search? pretty' 


6. 获取 索引 分 段 
在 一 个 或 多 个 索引 上 使 用 _segment, 可 以 得 到 一 个 底层 的 有 关 索 引 分 段 的 信息 : 


$ curl -XGET 'http://localhost:9200/library/_segments?pretty' 
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7. 获取 索引 恢复 信息 
这 个 API 提供 了 关于 索引 分 片 的 恢复 信息 。 这 为 索引 的 每 一 个 分 片 提 供 了 一 个 非常 
细致 的 视角 。 可 以 在 一 个 或 多 个 索引 上 使 用 _recovery 来 获取 索引 的 恢复 信息 : 


$ curl -XGET 'http://localhost:9200/library/_recovery?pretty' 
8. 获取 分 片 存储 信息 


这 个 API 有 助 于 获取 一 个 或 多 个 索引 的 分 片 存 储 信息 。 可 以 使 用 _shard_stores 来 得 
到 分 片 的 存储 信息 : 


Curl -XGET 'http://localhost:9200/library/_shard stores?pretty' 


这 将 影响 所 有 的 分 片 ,下 面 是 其 中 一 个 这 样 的 分 片 : 


ws 
"stores" : [{ 
"re4j45- YTP6VZgMN7TdP2Sg" : { 
"name" : "xB20COp", 
"ephemeral id" : "SK9sdP0nRPuCKs51VtvNqg"， 
"transport address" : "127.0.0.1:9300", 
"attributes" : {} 
}, 
"allocation id" : "9I ArywATD6CV8lqvFIFaA", 
"allocation" : "primary" 
} 
] 
》 
返回 的 结果 中 ,显示 了 许多 存储 信息 ,包括 节点 名 称 、 地 址 、 属 性 、 版 本 和 分 配 类 型 。 如 





果 只 运行 了 一 个 节点 , 则 不 会 获得 有 关 副 本 分 片 的 信息 。 

9. 索引 别名 

别名 与 UNIX 操作 系统 中 的 别名 相似 。 在 UNIX 操作 系统 中 ,它们 是 用 于 命令 的 ,而 
在 这 里 是 用 于 索引 的 。 

我 们 可 以 为 单个 或 多 个 索引 创建 别名 。 别 名 创建 后 ,可 在 API 调用 中 使 用 它 来 代替 索 
引 名 称 ,而 Elasticsearch 将 用 实际 索引 名 称 替 换 别 名 然后 执行 操作 。 有 许多 索引 时 ,别名 
是 有 用 的 ,可 以 根据 它 对 索引 分 组 。 

例如 ,已 经 搭建 了 生产 服务 器 ,其 中 含有 数据 库 、 网 络 和 应 用 服务 器 程序 ,同时 也 已 经 建 
立 起 Elastic Stack 从 服务 器 中 收集 日 志 ,并 存 人 Elasticsearch。 现 在 还 有 其 他 索引 ,但 是 希 
望 对 所 有 日 志 相关 的 索引 执行 一 些 操作 。 这 时 可 以 用 一 个 别名 指 代 它 们 ,例如 prod_logs。 
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以 后 无 论 想 执行 什么 操作 ,都 可 以 通过 简单 地 使 用 prod_logs 蔡 代 这 些 与 日 志 相 关 的 索引 
名 而 不 是 输入 所 有 的 索引 名 。 可 以 使 用 _aliases 创建 别名 。 可 以 为 索引 添加 和 删除 别名 ， 
如 下 面 的 代码 段 所 示 : 
$ curl -XPOST 'http://localhost:9200/ aliases' -d '{ 
"actions" : [ 
{ "add" : { "index" : "library", "alias" : "alias1" } }, 


{ "remove" : { "index" : "library", "alias" : "aliasl" } } 


中， 
可 以 指定 尽 可 能 多 的 操作 。 调 用 的 第 一 个 操作 是 在 library 索引 中 添加 一 个 别名 
aliasl ,第 二 个 操作 是 将 其 删除 。 


全 别名 不 能 和 索引 名 称 相同 。 


10. 映像 

根据 文档 里 面 的 数据 将 其 添加 给 一 个 索引 时 ,Elasticsearch 会 创建 映像 。 这 些 映像 能 
帮助 我 们 识别 和 定义 一 个 字段 是 否 为 全 文 索引 的 字段 .数字 字段 或 日 期 字段 。 

在 Elasticsearch 中 ,为 了 将 文档 在 索引 中 进行 逮 辑 分 组 ,每 个 指标 都 有 一 个 或 多 个 映 
像 类 型 。 每 一 个 映像 类 型 都 有 metar-fields( 元 字段 ,如 _index、type、id、source) 和 普通 内 
容 字 段 列表 ,每 个 字段 都 有 数据 类 型 。 这 些 数 据 类 型 可 以 是 string (字符 串 ) .long( 长 整 
型 ) double( 双 精度 浮 点 数 ) .date( 日 期 ).boolean (布尔 型 ) ip(IP 地 址 )、object (对 象 )、 
nested( 艇 套 ) 以 及 与 地 理 位 置 有 关 的 特殊 类 型 ,如 geo_point ,geo_shape 等 。 

可 以 通过 _mapping 来 获取 索引 的 映像 ; 

$ curl http://localhost:9200/library/_ mapping?pretty 

如 果 有 多 个 类 型 ,而 且 只 想 针对 特定 类 型 获得 映像 ,可 以 使 用 {index}/_mapping/ 
{type}: 

$ curl http://localhost:9200/library/ mapping/book?pretty 

执行 此 命令 将 输出 一 个 包含 所 有 字段 的 属性 表 : 

{ 
wiibrary™s 
"mappings": { 


.book™s € 


"properties": { 
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"author": { 
"type": "text", 
"fields": { 
"keyword": { 
"type": "keyword", 


"ignore above": 256 


}, 
"pages": 





"type": "long" 
}, 
Ee 
"type": "text", 
"fields": { 
"keyword": { 
"type": "keyword", 


"ignore above": 256 


} 

其 中 的 book 类 型 包含 这 三 个 字段 ,对 于 每 个 字段 ,都 有 一 个 与 其 他 相关 属性 一 起 定义 
的 类 型 。 

可 以 通过 使 用 (index)/_mapping/{type}) /field/ {fields} 来 获取 特殊 字段 的 映像 ,在 命令 
中 可 以 指定 以 逗号 分 隔 的 多 个 字段 : 

$ curl localhost:9200/library/ mapping/field/title?pretty 


可 以 以 HEAD 方式 来 检查 类 型 是 否 存 在 : 


$ curl -XHEAD -i 'http://localhost:9200/library/_mapping/book' 
HTTP/1.1 200 OK 

Content-Type: text/plain; charset=UTF-8 

Content-Length: 0 


状态 码 200 表示 该 类 型 存在 。 如 果 不 存在 , 则 状态 码 为 404。 
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可 以 使 用 Put Mappings API 来 添加 映像 ,允许 添加 一 个 新 类 型 或 新 字段 。 
车 要 向 索引 添加 新 类 型 ,例如 将 paper 添加 到 library 索引 中 ,可 以 执行 以 下 命令 : 


$ curl -XPUT 'http://localhost:9200/library/ mapping/paper' -d' 
{ 
"Properties": { 
"abstract": { 
"type": "string" 


}' 





如 果 成 功 创建 , 则 执行 此 操作 的 运行 结果 为 true。 这 将 创建 一 个 paper 类 型 ,其 中 包含 


一 个 abstract 字段 。 


11. 关闭 .打开 和 删除 索引 


有 时 出 于 维护 或 恢复 的 目的 ,可 能 希望 停止 对 一 个 特定 索引 的 读 / 写 操作 。 当 索引 关闭 
时 ,除了 保持 元 数据 之 外 ,集群 上 不 会 执行 任何 操作 。 可 以 分 别 使 用 /{index}/_close 和 


/{index)/_open 来 关闭 /打开 索引 。 为 此 ,以 POST 方式 来 执行 curl 命令 : 


$ curl -XPOST 'http://localhost:9200/library/_close' 
$ curl -XPOST 'http://localhost:9200/library/_open' 


如 果 根 本 不 需要 索引 ,也 可 以 以 DELETE 方式 删除 它 : 


$ curl -XDELETE 'http://localhost:9200/library' 


这 将 从 集群 中 删除 索引 ,就 像 它 从 未 出 现 过 一 样 。 还 可 以 使 用 通配符 匹配 来 删除 多 个 


索引 ,例如 删除 所 有 名 称 为 textXXX 的 索引 : 


$ curl -XDELETE 'http://localhost:9200/test*"' 


这 将 查看 众多 索引 中 是 否 包 括 某 些 名 称 以 test 开头 的 索引 ,如 果 有 , 则 将 其 删除 。 如 
果 不 存 在 名 称 为 test 的 索引 并 且 此 时 正在 使 用 通配符 ,也 不 会 得 到 任何 错误 ,而 是 如 下 的 


确认 信息 : 


{ 
"acknowledged": true 
} 


如 果 在 没有 通配符 的 情况 下 删除 一 个 索引 ,同时 索引 不 存在 ,那么 程序 将 会 抛 出 index_ 


not_found_exception 异常 。 
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2.3.3.2 其 他 操作 


这 个 API 支持 的 操作 还 有 很 多 ,例如 清除 缓存 、 升 级 Elasticsearch 索引 、 强 制 合 并 、 更 
新 索引 和 刷新 等 : 

。 清除 缓存 : _cache/clear 可 以 清除 一 个 或 多 个 索引 的 缓存 : 

$ curl -XPOST "http://localhost:9200/library/_cache/clear" 


。 Flush: _flush 通过 清除 事务 日 志 以 及 将 数据 转移 到 索引 中 进行 存储 的 方式 ,释放 一 
个 或 多 个 索引 所 占用 的 内 存 空间 : 

$ curl -XPOST "http://localhost:9200/library/_ flush" 

。 更 新 索引 Refresh: 提供 _refresh 来 更 新 一 个 或 多 个 索引 : 

$ curl -XPOST "http://localhost:9200/library/_refresh" 

。 软件 更 新 Upgrade API: 将 Elasticsearch 索引 从 旧版 本 升级 到 新 版 本 ,可 以 用 _upgrade 
升级 一 个 或 多 个 索引 。 这 个 过 程 通常 需要 一 些 时 间 : 

$ curl -XPOST 'http://localhost:9200/library/_upgrade?Pretty' 

程序 将 返回 以 下 输出 : 


{ 

"_shards": { 
"otal"s L159; 
"successful": 10, 
"failed": 0 

}, 


"upgraded indices": { 


"iibrary”s { 
"upgrade version": "5.1.1", 
"oldest lucene segment version": "6.3.0" 


} 
正如 我 们 所 见 ,library 索引 已 经 被 成 功 升级 ,其 升级 后 的 版 本 已 经 发 布 。 


2.3.4 Cat API 
Cat API 以 可 读 的 格式 (而 非 JSON 格式 ) 输 出 节点 、 索 引 、 字 有 段 ,任务 和 插件 的 信息 ,也 
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可 以 可 视 化 表格 输出 在 控制 台 上 的 方式 。 
在 第 8 章 Elasticsearch API 的 Cat API 中 ,将 学 习 更 多 关于 Cat API 的 内 容 。 


2.3.5 Cluster API 


Cluster API 可 使 我 们 了 解 集群 的 状态 \、 健 康 程度 、 统 计数 据 、 节 点 统计 数据 和 节点 信 
息 。 在 第 8 章 Elasticsearch API 的 集群 API 中 将 学 习 有 关 集 群 API 的 内 容 。 


2.4 Query DSL 


这 种 方式 需要 像 调用 Document API 那样 ,指定 一 个 带 有 uri 的 请 求 体 。 对 于 前 面 按 作 
者 搜索 的 查询 ,可 以 重 写 为 如 下 内 容 : 


$ curl -XGET 'http://localhost:9200/library/book/_search?pretty' -d '{ 
"query" : { 
"term" : {"author" : "gupta"} 
} 
)} 
此 查询 将 返回 相同 的 结果 。 任 何 使 用 "q= "定义 的 查询 参数 ,都 可 在 term 中 定义 。 要 
了 解 有 关 Query DSL 的 更 多 信息 ,可 以 参阅 https://www. elastic. co/guide/en/elasticsearch/ 


reference/ 5. 1/query-dsl. html。 
2.5 ”聚合 


聚合 (Aggregations) 框 架 是 Elasticsearch 中 非常 重要 的 一 部 分 。 顾名思义 ,这 个 框架 
能 聚合 和 生成 关于 搜索 查询 结果 的 分 析 信 息 。 聚 合 有 助 于 更 好 地 了 解数 据 。 例 如 ,在 
library 索引 示例 中 ,可 以 得 到 一 些 答案 : 特定 的 某 一 年 中 有 多 少 本 书 , 书 是 关于 哪 种 技术 
的 ,平均 每 年 有 多 少 本 书 以 及 更 多 的 其 他 信息 。 

当 从 面板 上 了 解 系统 的 数据 时 ,聚合 就 能 显现 出 其 优越 性 了 。 通 常 系统 面板 上 会 有 图 
表 形 式 的 聚合 数据 。 后 面 的 章节 中 也 将 使 用 聚合 ,这 些 聚 合 信息 将 帮助 Kibana 生成 有 用 的 





可 视 化 内 容 。 
核心 的 聚合 有 两 种 类 型 : 测度 (Metrics) 和 桶 (Buckets) 聚 合 。 这 一 部 分 将 学 习 这 些 
内 容 。 


2.5.1 Buckets 聚合 


这 种 聚合 方式 是 基于 某 种 标准 创建 文档 的 桶 。 它 也 可 以 包含 子 聚 合 。 在 这 一 节 中 ,我 
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们 将 学 习 子 聚合 。 

要 理解 基于 桶 的 聚合 ,首先 添加 另 一 个 索引 stones 和 一 个 名 为 diamonds 的 类 型 。 该 
数据 集 可 通过 访问 下 列 地 址 获得 : https://vincentarelbundock. github. io/Rdatasets/ 
datasets. html。 

为 方便 起 见 , 所 使 用 的 数据 集 也 与 本 章 内 容 一 起 打包 ,其 代码 文件 也 可 以 获取 。 如 果 想 
尝试 未 修改 的 数据 集 , 可 以 在 这 个 页 面 中 获取 : https://vincentarelbundock. github. io/ 
rdatasets/csv/ecdat/ diamond. csv。 数 据 集 的 示例 如 下 表 所 示 : 


颜 色 净 度 价格 /由 
透明 无 色 (E) 细小 杂质 (SI2) 326 





此 表 中 的 一 行 显示 了 有 关 钻 石 的 数据 ,我 们 得 到 了 重量 .切割 .颜色 ,. 净 度 和 价格 这 些 信 
息 。 这 里 还 有 其 他 的 字段 ,但 是 为 了 简单 起 见 ,省 略 了 那些 字段 。 
将 数据 存 和 人 Elasticsearch 的 Logstash 配置 文件 ,内 容 如 下 所 示 : 








人 @O 第 3 章 探 索 Logstash 及 其 组 件 , 将 会 涉及 Logstash 的 内 容 。 





inputt{ 
filet 
path =>"/opt/elk/datasets/diamonds.csv" 
start position =>"beginning" 


} 


filtert{ 
csvt{ 
columns => 
["caret", "cut", "colour", "clarity", "depth", 
"Eable"; “price"s "XxX", "y", ""]) 
separator =>"," 
} 
mutate { 
convert => ["caret", "float"] 


convert => ["depth", "float"] 
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convert => ["table", "integer"] 
convert => ["price", "integer"] 
convert => ["x","integer"] 
convert => ["y","integer"] 


Convert => ["z","integer"] 


output { 
elasticsearch { 
index =>"stones" 
document type =>"diamond" 


hosts =>"localhost" 


} 


在 前 面 的 配置 中 ,我 们 添加 了 一 个 mutate 代码 段 来 将 字段 转换 为 适当 的 类 型 。 如 果 不 
转换 ,Elasticsearch 就 将 所 有 字段 设置 为 字符 串 类 型 。 另 外 ,请 注意 我 们 已 经 添加 了 一 个 名 
为 stones 的 索引 (如 果 这 个 索引 不 存在 ,将 自动 为 这 个 名 称 创建 一 个 新 索引 ) 和 diamond 的 
文档 类 型 。 这 将 在 Elasticsearch 上 创建 一 个 名 称 为 stones 的 索引 ,并 为 这 个 索引 创建 类 型 
diamond。 如 果 索 引 和 类 型 已 经 存在 ,那么 数据 将 被 添加 进去 。 没 有 在 这 里 为 Elasticsearch 
指定 端口 ,将 使 用 默认 端口 9200。 要 使 用 此 配置 运行 Logstash ,请 执行 以 下 命令 (假设 配置 
文件 被 命名 为 logstash-diamond. conf 并 且 放 置 在 conf 目录 下 ): 


$ ./bin/logstash -f conf/logstash.diamonds.conf 


最 后 一 个 命令 将 创建 一 个 索引 ,在 这 个 索引 上 将 尝试 使 用 聚合 。 在 搜索 查询 中 ,添加 一 
个 聚合 ,代码 如 下 : 


naggs™ i { 
"<aggregation-name>" : { 
"<aggregation-type>" : { 
"field" : "<field-name>" 


} 


} 


这 是 定义 聚合 的 方式 一 一 使 用 aggs 参数 (使 用 aggregations 代 蔡 aggs 也 是 可 以 的 )。 
除了 aggs 参数 ,需要 为 聚合 设置 一 个 名 字 一 个 要 使 用 的 类 型 。 最 后 ,需要 提供 一 个 对 数据 
进行 聚合 的 字段 。 
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让 我 们 创建 第 一 个 bucket 聚合 。 在 这 一 点 上 ,希望 按 净 度 (clarity) 这 一 指标 将 钻石 放 
入 桶 中 : 


$ curl -XGET 'http://localhost:9200/stones/diamond/_search? pretty' 


-di'{ 
"aggs" : { 
"diamonds by clarity" : { 
"terms" : { 
"field" : "clarity" 
} 
F 
} 


}"! 

可 能 会 得 到 一 个 illegal_argument_exception 异常 , 且 在 默认 情况 下 ,Fielddata 在 文本 
字段 中 被 禁用 。 此 时 需要 对 clarity 字段 设置 fielddata 一 true, 通 过 逆向 解析 倒 排 索引 ,将 
fielddata 加 载 到 内 存 中 。 注 意 ,这 将 消耗 大 量 的 内 存 空 间 。 要 启用 字段 fielddata, 例 如 对 
clarity 字段 执行 此 操作 ,请 执行 以 下 命令 : 


$ curl -XPUT "http://localhost:9200/stones/ mapping/diamond" -d' { 
"properties": { 
"clarity": { 
"type": "text", 
"fielddata": true 


中 
这 将 创建 净 度 的 buckets, 其 输出 如 下 : 


"aggregations" : { 
"diamonds by clarity" : { 

"doc count error upper bound" : 0, 
"sum other doc count" : 0, 
"buckets": [{ 

Shey™ "811", 

"doc count" : 13065 
]，{ 

全 WE 

"doc count" : 12258 
yo 


"key" : "si2", 
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} 
} 


可 以 看 到 ,每 一 个 不 同 的 净 度 值 都 有 唯一 的 bucket, 净 度 值 从 之 前 “ 键 值 对 ”中 的 “ 值 ” 
变 为 " 键 ”每 个 bucket 中 都 以 doc_count 来 表示 所 有 包含 该 净 度 值 的 文档 的 数量 统计 。 
增加 一 个 metric 聚合 作为 子 聚 合 , 可 增加 它 的 复杂 性: 


$ curl -XGET 'http://localhost:9200/stones/diamond/_search?pretty' -d 


中 
"aggs" : { 
"diamonds by clarity" : { 
"terms" : { 
"field" : "clarity" 
}, 
"aggs" : { 
"max price" : { 
"max™ : { 
"field" : "price" 
} 
} 
} 
} 
} 


"doc count" : 9193 

},{ 
"key" : "vs1", 
"doc count" : 8171 

be 
"key" 
"doc count" : 5066 


}，{ 


3 wwVS2e7 


"key" : "vvslw， 

"doc count" : 3655 
| 

"key" : "if", 

"doc count" : 1790 
br 

"key" : "il", 
wdoe count™" : 741 } 


} ] 
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要 添加 子 聚 合 ,只 需 在 创建 好 的 聚合 中 再 增加 一 个 aggs 参数 。 其 中 的 max 是 一 个 


metric 聚合 ,这些 将 在 下 一 节 学 习 到 。 让 我 们 分 析 一 下 这 一 输出 : 


"buckets" : [{ 


"key" : "sil", 
"doc count" : 13065, 


"max price" : { 


"value" : 


} 
bt 


18818.0 


"key" : "vs2", 
"doc count" : 12258, 


"max price" : { 


"value" : 


] 


18823.0 


现在 每 个 bucket 都 将 包含 文档 中 的 max_price。 
例如 ,使 用 价格 范围 去 分 析 数 据 。 可 以 看 到 ,价格 最 大 值 小 于 19 000$ , 据 此 定义 价格 
为 0~5000$ .5000~10 000$ 、10 000~14 000 $ 、14 000 一 16 000$ 、16 000~19 000$ 。 
这 次 使 用 的 聚合 是 范围 (range) 聚 合 ， 


$ curl -XGET 'http://localhost:9200/stones/diamond/_search?pretty' -d 


naggs" : { 


"Price ranges" : { 


"range" : { 


"field" : "price", 


"ranges" : 


{ "to" 


{"from" 


《On 5 


{"from" 


{"from" 


[ 


: 5000 }, 


: 5000, "to" : 10000 } ， 
10000, "to" : 14000 }, 
: 14000, "to" : 16000 }, 
: 16000, "to" : 19000 } 
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还 需要 定义 这 个 聚合 的 范围 。 现 在 ,输出 中 将 会 包含 刚刚 定义 好 范围 的 buckets: 


"aggregations" : { 
"price ranges": { 
"buckets": [{ 
"key™" : "*—-5000.0", 
"to" : 5000.0, 
"doc count" : 39212 
}，{ 
"key" : "5000.0-10000.0", 
"from”" : 5000.0， 
"to" : 10000.0, 
"doc count" : 9504 
yo { 
"key" : "10000.0-14000.0", 
"from" : 10000.0, 
"to" : 14000.0, 
"doc count" : 3064 
| 
"key" : "14000.0-16000.0", 
"from" : 14000.0, 
"to" : 16000.0, 
"doc count" : 1017 
te 
"key" : "16000.0-19000.0", 
"from" : 16000.0, 
"to" : 19000.0, 
"doc count" : 1142 


} |] 


} 


可 以 看 到 文档 按 定义 的 范围 进行 了 划分 。 

做 更 多 的 聚合 之 前 , 先 把 更 多 的 数据 存 和 人 Elasticsearch, 并 为 library 库 索 引 添 加 一 个 
名 为 movies 的 新 类 型 。 要 使 用 IMDB 的 数据 集 , 可 以 从 这 个 网 址 下 载 : https:// 
vincentarelbundock. github. io/Rdatasets/csv/ggplot2/movies. csv。 

已 经 删除 了 CSV 文件 中 第 一 列 的 S. No. 字段 ,然后 使 用 Logstash 加 载 其 余数 据 。 
Logstash 加 载 的 配置 文件 内 容 如 下 所 示 : 


inputt{ 
filef 


path =>"/ opt/elk/datasets/movies.csv" 


start position =>"beginning" 


} 
filtert{ 
csv{ 


columns => 
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["title", "year", "length", "budget", "rating", "votes", 


"rlvotes", "r2votes", "r3votes", "rd4votes", "r5votes", "ré6évotes", 


"rT7votes", "r8votes", "r9votes", "rl0votes", "mpaaRating", "action", 


"animation", "comedy", "drama", "documentary", "romance", "short"] 


separator =>"," 


mutate { 

convert => 
convert => 
convert => 
convert => 
convert => 
convert => 
convert => 
convert => 
convert => 
convert => 
convert => 


} 
output { 





} 


"year","integer"] 
"budget","integer"] 
"votes","integer"] 
"rating","integer"] 
"action","integer"] 
"animation", "integer"] 
"comedy","integer"] 


"drama" 





"integer"] 
"documentary" 





integer"] 


"romance", "integer"] 





"short","integer"] 


elasticsearch { 


index =>"library" 


document type =>"movies" 


hosts =>"localhost" 


} 
} 


可 以 像 上 面 stones 那个 例子 一 样 运行 这 个 配置 。 唯 一 的 变化 是 ,索引 名 称 与 library 索 


$ ./bin/logstash -f conf/logstash.movies.conf 


引 相同 ,并 将 document_type 设置 为 movies: 


2.5.2 Metrics 聚合 


进行 索引 时 ,一些 数 字 或 值 被 提取 出 来 .Metrics 聚合 从 文档 中 计算 这 些 指 标 ,数值 指标 
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分 为 单 值 和 多 值 。 在 Metrics 聚合 中 有 许多 可 用 的 测度 聚合 ,在 这 一 节 中 ,将 学 习 一 些 重要 
的 Metrics 聚合 。 


2.5.2.1 Arvg 平均 值 聚合 


这 是 一 个 单 值 聚合 , 它 用 数值 去 计算 聚合 文档 中 相应 测度 的 平均 值 。 这 些 值 可 以 取 自 
特定 的 字段 ,也 可 以 是 某 些 脚本 运行 的 结果 ,这 是 一 个 单 值 测度 。 例 如 ,如 果 和 希望 得 到 votes 
字段 的 平均 数 , 可 以 执行 以 下 命令 : 





$ curl -XGET 'http://localhost:9200/library/movies/_search?pretty' -d 
对 
"aggs" : { 
"avg_votes" : { "avg" : { "field" : "votes" } } 
} 
}' 
执行 后 将 返回 一 些 聚 合 结果 的 记录 : 


{ 
"aggregations" : { 
"avg votes" : { 


"value" : 632.1034394774443 
} 


} 


2.5.2.2 Min 最 小 值 聚 合 
这 是 一 个 单 值 聚 合 , 可 以 返回 从 聚合 文档 中 提取 的 数据 的 最 小 值 。 例 如 ,要 找到 rating 
字段 中 的 最 小 值 ,可 执行 以 下 命令 : 


{ 
"aggs" : { 
"min rating" : { "min" : { "field" : "rating" } } 
} 
} 


2.5.2.3 Max 最 大 值 聚合 
这 是 一 个 单 值 聚合 ,可 以 返回 从 聚合 文档 中 提取 的 数据 的 最 大 值 。 例 如 ,要 找到 rating 
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字段 中 最 大 的 数据 值 ,可 执行 以 下 命令 : 


{ 
"aggs" : { 
"max_ rating" : { "max" : { "field" : "rating" } } 
} 
} 


2.5.2.4 Percentiles 百分比 聚合 

这 是 一 个 在 数值 字段 上 生成 百分数 的 多 值 聚 合 数值 。 例 如 ,在 rating 字段 上 得 到 百 分 
比 。 要 获得 该 百分比 ,可 以 执行 以 下 命令 : 

' 

"aggs" : { 
"rating percentiles" : { 
"percentiles" : { "field" : "rating" } 
} 
返回 的 结果 如 下 所 示 : 
{ 


"aggregations" : { 


"rating percentiles": { 


"values" : { 
ek 
50" 30, 
"290 45307 
"50.0”" 6.07 
"35.0" 3 7 了 .97 
-95,0" 5 0507 
DEL :9 


} 


2.5.2.5 Sum 求 和 聚合 


这 是 一 个 单 值 聚合 , 它 可 以 返回 到 从 字段 中 提取 数值 的 总 和 。 对 于 数据 集 ,如果 想 找 到 


次 二 这 
(2 精通 Elastic Stack 








喜剧 电影 (在 comedy 字段 进行 计算 ) 的 总 的 数量 ,可 以 执行 如 下 命令 : 


$ curl -XGET 'http://localhost:9200/library/movies/_search?pretty' -d 
过 
"aggs" : { 


"total comedy movies" : { "sum" : { "field" : "comedy" } } 
下 


执行 上 述 命令 将 返回 以 下 结果 : 





"aggregations" : { 
"total comedy movies" : { 
"value" :; 17271.0 


2.5.2.6 Value_count 计数 聚合 


该 统计 是 一 个 单 值 聚合 , 它 可 以 获取 搜索 到 的 文档 和 字段 的 数量 计数 值 。 例 如 ,要 获得 
2000 年 发 布 的 电影 的 数量 ,可 以 执行 以 下 命令 : 


$ curl -XGET'http://localhost:9200/library/movies/_search?pretty&q=year:2000' 
-di'{ 
naggs" : { 


"total rated movies" : { "value count" : { "field" : "rating" } } 
}' 
2.5.2.7 Cardinality 聚合 


Cardinality (基数 ) 上 聚合 也 是 一 个 单 值 聚 合 .可 以 将 其 看 作 类 似 关系 型 数据 库 中 的 
distinct 查询 。 假 设想 得 到 movies 索引 中 不 重复 的 clarity 统计 数量 ,可 以 使 用 这 个 聚合 


$ curl 'http://localhost:9200/library/movies/_search?pretty' -d '{ 
"aggs" : { 
"years" : { 
"cardinality" : { 


"field" : "year" 
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}! 
执行 该 命令 将 得 到 索引 中 不 重复 的 clarity 计数 : 
"aggregations" : { 


"years" : { 


"value" : 68 


2.5.2.8 Stats 聚合 


Stats( 统 计 ) 聚 合 是 一 种 多 值 聚 合 , 计 算 之 后 返回 该 字段 的 min max、sum、count 和 avg 
等 统计 数据 。 要 计算 votes 的 统计 数据 ,执行 以 下 操作 : 
$ curl -XGET 'http://localhost:9200/library/movies/_search?pretty' -d 
让 
"aggs" : { 
"stats votes" : { "stats" : { "field" : "votes" } } 


} 
执行 上 述 命令 将 返回 以 下 输出 : 
"aggregations" : { 
"stats votes" : { 
"count" : 58787, 
"mn" 0 
"max" : 149494.0, 


"avg" : 629.4601357442972, 
"sum" : 3.7004073E7 


2.5.2.9 扩展 Stats 聚合 


这 种 多 值 聚 合 是 一 种 扩展 的 Stats 聚合 。 除 了 最 小 值 `. 最 大 值 ` 总 和 、` 计 数 和 均值 之 外 ， 
它 还 增加 了 sum_of_ squares (平方 和 )、variance (方差 ) std_deviation (标准 差 ) 和 std_ 
deviation_bounds( 标 准 差 范围 ) 等 统计 数据 。 例 如 .计算 votes 中 的 扩展 统计 数据 : 














$ curl -XGET 'http://localhost:9200/library/movies/_search?pretty' -d 
' 
{ 
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"aggs" : { 
"extended stats votes" : { "extended stats" : { "field" : "votes" } 
本 
} 
i 


执行 上 述 命令 将 返回 以 下 输出 : 


"aggregations" : { 
"extended stats_votes" : { 
"eount” : 58787; 
"min” s 5.0, 
"max" : 149494.0, 
"avg" : 629.4601357442972, 
"sum" : 3.7004073E7, 
"sum of squares" : 8.60820897863E11, 
"variance" : 1.4246828534358414E7, 
"std deviation" : 3774.4971233739752, 


"std deviation bounds": { 
"upper" : 8178.4543824922475, 
"lower" : -6919.534111003653 


} 

在 下 面 的 章节 中 ,将 借助 一 些 例子 来 学 习 更 多 关于 聚合 的 知识 。 例 如 ,在 第 12 章 案例 
研究 一 一 Meetup 中 ,将 使 用 地 理 位 置 相关 的 聚合 ,以 及 词 项 (term)、` 范 围 (range) 等 其 他 聚 
合 方式 。 





2.6 ”Painless 脚本 说 明 


有 时 候 ,我 们 会 使 用 脚本 、 更 新 数据 、 脚 本 字段 和 许多 其 他 案例 。 在 Elastic Stack 5. x 
版 本 之 前 ,Groovy 是 默认 的 脚本 语言 , 那 时 甚至 没有 具体 指定 脚本 。 由 于 这 些 脚 本 是 远程 
执行 的 ,所 以 安全 性 一 直 是 Elastic 团队 必须 解决 的 问题 ,这 就 是 设计 Painless 脚本 的 原因 。 

谈 到 性 能 ,Painless 既 安全 又 高 效 。 它 的 语法 与 Groovy 类 似 , 很 容易 学 习 和 使 用 。 在 
大 多 数 情况 下 ,无 须 改变 以 前 写 过 的 脚本 ,只 需 添加 一 个 名 为 lang 的 参数 ,并 将 该 值 指定 为 
painless 即 可 。 

要 在 Painless 脚本 中 定义 变量 ,只 需 编 写 以 下 内 容 : 


def myVar ='my- value'; 
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不 需要 指定 任何 类 型 。 在 运行 时 ,变量 的 类 型 将 被 检测 为 适合 的 类 型 。Painless 支持 所 有 
由 Java 定义 的 变量 。 

要 定义 数组 ,可 以 编写 以 下 内 容 : 

int[] 

要 定义 一 个 列表 ,可 以 编写 以 下 内 容 : 


def nums =[1, 2, 3, 4, 5] 
nums [0] // lst element 


nums[-1] // last element of the list 
同样 ,映像 也 可 以 被 定义 : 


def book =['name': 'Java', 'pages': 450]; 


book.name // refers to Java 
要 执行 循环 操作 ,可 以 编写 以 下 内 容 : 
for (item:nums) { ..} 


为 了 进一步 理解 如 何 使 用 这 种 脚本 ,这 里 使 用 前 面 提 到 的 library 索引 。 考 虑 在 每 本 书 
的 结尾 加 上 5 页 作为 广告 页 ,图 书馆 里 所 有 的 书 都 必须 更 新 ,并 且 在 页 面 计数 上 增加 5 页 。 
要 做 到 这 一 点 ,可 以 用 Document API 中 的 update_by_query 实现 : 


Curl -XPOST "http://localhost:9200/library/book/_update by query" -d' 
， 
"hoript": { 
"inline": "ctx._source.pages +=5", 
"lang": "painless" 
}, 
"query": { 
"match all": { 
} 


} 


在 这 个 简单 的 例子 中 ,已 经 使 用 ctx. _source 更 新 了 页 数 , 通 过 使 用 match_all 查询 为 
每 本 书 添加 了 5 页 。 

让 我 们 再 增加 一 些 复杂 性 。 如 果 所 有 的 书 都 有 一 个 出 版 社 字段 ,类 似 于 以 下 文档 中 
的 书 : 


curl -XPUT "http://localhost:9200/library/book/41/_create?pretty" -d' 
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{ 
"author" : "Ravi Kumar Gupta", 
"title" : "Test-Driven JavaScript Development", 
"pages" : 240, 
"Publication" : "packt" 
}' 
现在 , 想 要 增加 5 页 ,但 只 为 Packt 出 版 社 出 版 的 书 增加 页 数 ,就 可 以 用 下 面 的 限制 条 件 来 
实 现 了 
curl -XPOST "http://localhost:9200/library/book/ _ update by query" -d' 
{ 
"script": { 
"inline": "if(ctx. source.publication == \ "packt\ "))" 
ctx._source.pages +=5", 
"lang": "painless" 
}, 
"query": { 
"match all": { 
} 


} 
类 似 地 ,脚本 中 也 可 以 设置 循环 ,以 及 其 他 由 Painless 提供 的 功能 。Painless 脚本 的 完 
整 文档 可 以 在 此 网 址 查找 : https://www. elastic. co/guide/en/elasticsearch/reference/ 


5.1/modules-scripting-painless. html。 


2.7 本章 儿 结 


在 本 章 中 ,了 解 了 Elasticsearch 的 架构 及 其 诞生 过 程 :熟悉 了 Elasticsearch API 一 一 
SearchAPI IndicesAPI 和 DocumentAPI 等 。 借 助 这 些 API, 学 习 了 如 何 向 Elasticsearch 中 
添加 文档 ,如 何 查询 这 些 文档 ,以 及 如 何 管理 索引 。 在 本 章 的 最 后 ,聚合 展示 了 如 何 有 效 地 
搜索 文档 。 在 后 面 的 章节 中 ,将 用 更 多 的 例子 来 实际 运用 这 些 概念 。 

在 下 一 章 中 ,将 了 解 Logstash, 并 学 习 如 何 针 对 复杂 数据 类 型 配置 Logstash 以 及 
Logstash 插件 。 
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在 前 面 的 章节 中 ,已 经 学 习 了 许多 有 关 Elasticsearch 的 特性 、 体 系 架构 及 它 所 提供 的 
各 种 API 的 用 法 等 ,也 详细 地 学 习 了 如 何 使 用 它 提供 的 API 及 API 的 功能 等 。 在 学 习 完 
Elasticsearch 后 ,本 章 将 开始 学 习 Elastic Stack 提供 的 另 一 个 流行 的 功能 组 件 一 一 
Logstash 的 用 法 ,学习 Logstash 的 需求 、Logstash 数据 流体 系 架构 及 其 各 种 组 件 的 使 用 
方法 。 

学 完 本 章 内 容 后 ,就 会 明白 Logstash 的 使 用 需求 `Logstash 数据 流 以 及 它 提供 的 各 种 
插件 (plugin) 的 配置 方法 。 

本 章 将 学 习 如 下 主要 内 容 : 

。 Logstash 简介 ; 

。 Logstash 插件 的 体系 架构 ; 

。 Logstash 配置 文件 结构 ; 

。 插件 的 种 类 ， 

。 数据 输入 插件 Input 的 用 法 ; 

。 数据 过 滤 插 件 Filter 的 用 法 ?; 

。 数据 输出 插件 Output 的 用 法 ; 

。 编 解 码 插件 Codec 的 用 法 ; 

。 插件 的 命令 行 操作 ; 

。 Logstash 的 命令 行 操作 ; 

。 解析 日 志 的 Logstash 配置 ; 

。 监控 API 的 用 法 。 


四 译 者 注 : 如 grok、date、mutate、ruby、metrics 等 ,各 种 数据 裁剪 和 计算 都 可 以 在 这 里 完成 。 
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3.1 Logstash 简介 


Logstash 起 源 于 Jordan Sissel 研发 的 一 个 智能 工程 产品 。Jordan Sissel 具有 操作 系统 
和 系统 管理 员 的 工作 背景 ,他 经 常 在 分 析 日 志 的 过 程 中 遇 到 挑战 。 有 一 次 ,他 想 在 秒 级 时 间 
内 处 理 大 量 的 日 志 数 据 流 ,然而 却 找 不 到 一 款 满 足 这 种 需求 的 合适 的 免费 的 开源 工具 或 工 
程 来 解决 这 个 问题 。 面 对 这 种 挑战 ,他 开始 着 手 为 用 户 构 建 适 合 这 种 需求 分 析 的 工具 ( 即 后 
来 的 Logstash) ,以 便 能 在 秒 级 处 理 这 种 大 量 的 日 志 流 。 在 这 款 软件 工具 中 ,他 还 结合 了 其 
他 一 些 强大 的 功能 ,以 便 能 从 大 量 日 志 中 获取 相关 的 信息 。 开 发 Logstash 的 一 个 目的 是 : 
构建 一 个 数据 中 心 处 理 系 统 。 利 用 它 , 能 从 多 数据 源 中 获取 日 志 , 并 便于 日 后 日 志 的 处 理 和 
数据 的 聚合 分 析 。 

起 初 ,Logstash 是 作为 一 个 独立 产品 出 现 的 。 随 着 Elasticsearch 的 成 长 ,Jordan Sissel 
加 入 到 Elastic 的 团队 中 ,并 直接 负责 Logstash 的 研发 。 从 那 时 起 ,作为 一 个 能 从 多 种 数据 
源 中 搜集 数据 ,记录 数据 ` 分 析 日 志 数 据 , 并 和 其 他 组 件 协同 完成 存储 数据 ` 可 视 化 数据 的 综 
合 性 平台 ,Logstash 不 断 成 长 为 Elastic Stack 的 一 个 核心 部 件 。Logstash 具有 一 些 强大 的 
处 理 功 能 ,拥有 实时 搜集 数据 的 能 力 , 这 使 它 成 为 一 款 处 理 日 志 信息 的 综合 性 工具 。 作 为 
Elastic Stack 中 的 一 员 ,Logstash 还 是 一 款 能 为 用 户 提供 端 到 端 解决 方案 的 开源 软件 。 


3.2 为 什么 需要 用 Logstash 


Logstash 起 初 主要 是 为 管理 日 志 而 出 现 的 一 个 工程 ,但 它 现在 已 经 扩展 到 能 分 析 各 种 
类 型 的 数据 了 ,其 数据 的 处 理 范围 涵盖 事件 数据 、 时 间 戳 数据 、 应 用 程序 日 志 、 事 务 型 数据 、 
CSV 数据 、 输 入 文件 等 。 数 据 可 以 是 结构 化 的 、 非 结构 化 的 ,或 者 是 那 种 难以 被 转换 为 某 种 
合适 格式 的 半 结 构 化 的 数据 。 为 了 能 管理 各 种 来 源 于 不 同系 统 的 不 同类 型 的 数据 ,我 们 需 
要 一 种 能 处 理 各 种 不 同类 型 日 志 数 据 的 有 效 的 工具 ,并 希望 它 能 以 近乎 实时 的 处 理 方式 来 
分 析 这 些 数据 。Logstash 能 从 各 种 系统 中 搜集 并 集中 在 中 心 系 统 中 管理 ,在 这 里 ,数据 能 
够 被 解析 并 按 需求 预 处 理 。 此 外 ,Logstash 还 能 从 多 个 系统 中 获取 数据 并 按照 通用 的 方式 
存储 数据 ,而 这 些 数据 将 来 可 以 便于 Elasticsearch 和 Kibana 使 用 。 

Logstash 可 通过 数据 管道 (pipeline) 来 抽取 、 清 洗 、 传 输 、 载 和 数据, 以便 从 数据 中 获取 
有 价值 的 信息 。 在 这 种 工作 方式 下 ,Logstash 用 于 对 数据 的 抽取 、 转 换 、 载 入 (ETL), 而 
ETL 是 一 个 在 数据 仓库 和 商业 智能 领域 中 使 用 广泛 的 词汇 。Logstash 能 从 多 系统 中 抽取 
数据 ,并 执行 一 些 处 理 或 转换 日 志 数 据 的 操作 (例如 在 载 人 和 处 理 数 据 后 完成 过 滤 数据 、 移 
除 字 段 .增加 字段 、 分 析 数 据 等 操作 ) 。 
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Logstash 经 常 被 比喻 为 瑞士 军刀 ,因为 它 能 处 理 任何 类 型 的 数据 。 由 于 它 含有 大 量 的 
能 从 各 种 不 同 数据 源 中 读 取 数据 的 Input 插件 转换 数据 的 Filter 插件 ,以 及 存储 、 输 出 数 
据 的 Output 插件 ,从 而 使 得 Logstash 成 为 一 款 几乎 能 处 理 所 有 数据 的 常用 工具 。 

先 让 我 们 看 看 Logstash 的 一 些 关键 特点 。 


3.3 ”Logstash 的 特点 
在 Logstash 诸多 的 特点 中 ,下 面 列 出 了 使 Logstash 有 别 于 其 他 日 志 管 理工 具 的 关键 


。 开源 : 作为 一 款 开 源 工具 .Logstash 是 可 以 完全 免费 使 用 的 ,其 源 代 码 可 以 从 
Github 上 免费 得 到 。 

。 与 Elasticsearch 、Beats、Kibana 无 颖 连接 : Logstash 是 一 个 基于 管道 式 (pipeline) 处 
理 数 据 的 强 有 力 的 工具 。 这 个 数据 处 理 管 道 能 依靠 紧密 耦合 在 一 起 的 Beats( 用 于 
从 多 系统 获取 数据 ) 、Elasticsearch( 完 成 存储 数据 、 实 时 检索 )、Kibana( 完 成 可 视 化 
数据 的 操作 ) 等 ,完成 相应 的 数据 处 理 操 作 。 

。 可 扩展 性 : Logstash 提供 多 种 输入 Input、 过 滤 Filter、 输 出 Output 插件 ,以 便 处 理 
各 种 不 同类 型 的 日 志 数 据 。 它 在 生成 和 开发 Logstash 的 插件 (Input、Filter、 
Output) 上 提供 一 定 的 灵活 性 ,使 得 基于 Logstash 的 研发 变 得 更 加 友好 。 

。 互 操作 性 : Logstash 在 使 用 其 他 各 种 插件 和 工具 方面 提供 互 操 作 性 。Logstash 能 
从 各 种 数据 来 源 (或 工具 ) 获 取 数 据 , 并 将 数据 输出 到 不 同 的 目的 地 (工具 )。 这 使 
Logstash 能 成 为 复杂 的 数据 处 理工 作 流 中 的 一 部 分 ,并 使 数据 处 理 变 得 更 加 容易 。 

。 可 插入 式 的 数据 管道 处 理 体 系 架构 : Logstash 包含 超过 200 种 由 Elastic 和 社区 开 
发 的 可 用 的 数据 插件 。Logstash 被 设计 成 为 一 种 “ 泛 型 "体系 结构 来 处 理 数 据 , 可 以 
在 其 中 增添 输入 ,过滤 、 输 出 的 各 种 插件 , 它 使 用 一 种 配置 文件 的 格式 来 使 用 各 种 
插件 。 

为 便于 使 用 这 些 不 同 的 数据 插件 ,Logstash 提供 了 相应 的 配置 文件 。 这 是 其 体系 架构 

的 关键 和 核心 ,以 确保 其 拥有 足够 的 灵活 性 。 为 更 好 地 理解 这 一 点 , 先 来 看 看 如 下 的 例子 。 

假定 这 里 有 一 个 用 来 存储 数据 的 新 工具 或 新 软件 ,Logstash 目前 不 支持 它 ,无 法 与 存 

储 在 其 中 的 数据 进行 交互 。 如 果 有 了 这 种 可 插入 式 的 体系 架构 ,就 可 以 很 容易 地 通过 写 入 

一 些 代码 和 使 用 一 系列 参数 来 开发 一 个 数据 插件 ,并 将 其 直接 使 用 在 Logstash 中 。 你 不 必 

深究 Logstash 源码 ,就 能 很 容易 地 开发 一 个 插件 。 数 据 插件 既 能 扩展 Logstash 的 应 用 范 

围 , 又 能 增加 对 相应 数据 的 处 理 能 力 。 
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3.4 Logstash 杆 件 的 体系 架构 


基于 Logstash 的 数据 处 理 管 道 包 括 输入 (Input)、 过 滤 (CFilter) .输出 (Output) 插 件 。 
先 通过 下 图 ,了 解 Logstash 是 如 何 使 用 这 些 插件 的 。 
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在 上 图 的 体系 架构 中 ,能 看 到 这 里 有 便于 数据 搜集 的 多 种 数据 源 , 它 们 在 Logstash 中 
是 作为 mput 插件 的 ;在 得 到 输入 的 数据 后 ,使 用 Filter 插件 来 转换 这 些 数据 ;处 理 完 数据 
后 ,借助 Output 插件 ,把 数据 存储 或 写 到 相应 的 目的 地 中 。 

Logstash 使 用 配置 文件 来 设 定 (存储 ) 相 应 的 输入 数据 ,过 滤 数 据 ,输出 数据 的 插件 。 数 据 输 
入 Input 插件 和 输出 Output 插件 是 在 配置 文件 中 强制 使 用 的 数据 处 理 插 件 .而 过 滤 Filter 插件 则 
是 可 选 的 。 如 果 已 经 准备 好 输入 数据 ,不 要 求 转换 和 更 改 这 些 输入 数据 ,并 且 把 数据 直接 存储 到 
某 个 目的 地 , 则 在 这 种 情况 下 ,Filter 插件 不 是 必需 的 。 其 系统 架构 可 简单 地 由 下 图 表示 。 


AAA 要 


II7 

7 

AAAIAAIT 

vn 

I 

JI11 - 刘 

I 。 ”输入 插件 输出 插件 


AAAIAZ 二 





第 3 章 探索 Logstash 及 其 组 件 71 ， 





既然 已 经 明白 了 Logstash 的 系统 结构 ,下 面 就 来 看 看 其 配置 文件 。 在 配置 文件 中 ,可 
以 定义 各 种 输入 数据 、 过 滤 数 据 、 输 出 数据 的 插件 。 


3.5 Logstash 配置 文件 的 结构 


一 个 Logstash 配置 文件 包括 input filter .output 这 三 部 分 ,每 部 分 用 于 设 定 想 要 使 用 
的 相应 的 数据 插件 。 先 看 下 面 的 例子 : 


input { 


} 
filter { 


} 
output { 


} 


其 中 每 部 分 均 包 含 用 于 配置 单个 或 多 个 插件 的 配置 信息 。 为 了 能 配置 插件 ,需要 在 相 
应 部 分 中 提供 择 件 的 名 称 , 并 提供 其 设置 信息 或 参数 (由 * 键 = 二 值 ” 对 的 方式 表示 )。 在 每 
部 分 中 ,如 果 定 义 了 多 个 插件 , 则 它们 的 执行 顺序 就 是 在 配置 文件 中 出 现 的 顺序 。 每 一 个 搬 
件 都 有 自己 相应 的 设 定 参数 ,这些 设 定 参 数 需 要 和 相应 的 插件 名 称 对 应 起 来 。 





全 这 里 的 “= 二 " 符号 表示 一 个 指派 操作 , 它 用 于 将 一 个 值 value 复制 给 在 配置 文 
件 中 对 应 的 键 key。 





在 深入 了 解 每 章 可 用 的 各 种 插件 之 前 , 先 要 明白 各 种 “ 值 ” 的 “类 型 ”, 以 及 在 配置 文件 中 
如 何 使 用 条 件 陈 述 。 这 些 “ 类 型 "可 以 在 配置 文件 中 通过 “ 值 " 来 赋值 。 


3.5.1 值 类 型 


每 一 个 Logstash 的 插件 都 包括 一 系列 设 定 值 。 对 于 一 些 字段 来 说 ,有 些 设 定 值 是 必需 
的 。 对 每 一 个 设 定 值 ,都 要 定义 一 系列 Logstash 能 够 支持 的 不 同 取 值 。 下 面 介 绍 可 用 的 值 
类 型 。 


3.5.1.1 数组 类 型 


数组 (Array) 具 有 一 个 或 多 个 数值 。 
对 于 单 值 情况 ,其 句法 如 下 : 
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Key=> "value" 
对 于 多 值 情况 ,其 句法 如 下 : 

Key=> ["valuel", "value2", "value3"] 

如 果 在 一 个 数组 中 多 次 设 定 一 个 值 ,相应 的 值 就 会 追加 到 数组 中 ,如 下 所 示 : 


key =>"value" 
key =>"valuel" 
key => ["value2", "value3", "value4"] 


这 个 key 会 存储 5 个 值 ( 即 value、valuel .value2 .value3 以 及 value4)。 
3.5.1.2 布尔 类 型 


布尔 (Boolean) 类 型 用 于 设 定 非 真 (true) 即 假 (false) 的 值 。 
例如 : 


Key =>true 


Keyl =>false 


人 @ 布 尔 类 型 的 值 ( 即 true 或 false) 禁 止 放 在 引号 中 使 用 。 





3.5.1.3 字 节 关 型 


字 节 (Byte) 是 字符 串 类 型 的 数据 (在 双 引 号 中 引用 ) ,用 来 表示 字 节 的 集合 。 它 可 使 用 
国际 单位 制 (SI Units)(kB、MB 或 GB) 以 及 二 进 制 (KiB、MiB、GiB) 计 算 字 节 数 (国际 单位 制 
SI Units 用 1000 表示 千 , 而 二 进 制 用 1024 表示 千 , 即 : 1kB 二 1000 字 节 ,1KiB= 二 1024 字 
节 )。Byte 可 用 来 定义 值 。 它 是 大 小 写 敏 感 的 ,接受 key 值 和 unit 间 的 空格 。 

例如 : 

size =>"2467KiB" 


size =>"9872MiB" 
key =>"452GB" 





全 如 果 未 指定 单元 , 则 值 表示 字 节 的 数量 。 








Key =>"1234" 


3.5.1.4 Codec 


Codec 不 是 一 种 值 类 型 ,但 它 常常 用 来 表示 数据 。 它 用 于 按照 需求 解码 那些 从 数据 输 
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入 插件 Input 中 读 取 的 数据 ,并 在 输出 到 数据 输出 插件 Output 前 进行 编码 。 使 用 它 , 就 不 
必 再 使 用 那些 设 定数 据 格式 的 特定 的 Filter 插件 了 。 


codec => "plain" 


3.5.1.5 注释 


这 不 是 一 种 值 类 型 ,而 是 在 配置 文件 中 定义 说 明文 字 的 注释 。 其 语法 类 似 于 Perl、 
Python 、Ruby 等 。 它 由 # 来 标识 ,可 以 出 现在 任意 语句 行 中 。 


Key =>"value"  # 这 是 一 种 字符 串 类 型 
# 和 希望 你 现在 正在 学 习 中 哦 


3.5.1.6 哈 希 类 型 


哈 希 (Hash) 类 型 是 一 组 键 值 对 ,其 中 键 和 值 都 是 用 双 引 号 表示 的 。 多 个 键 值 对 之 间 要 
用 空格 分 隔 ,不 能 用 逗号 。 
match =>{ 


"fieldl" =>"valuel" 
"field2" =>"value2" 


} 


3.5.1.7 数值 类 型 
数值 (Number) 类 型 的 数据 包括 合法 的 整 型 或 浮 点 型 的 数据 。 


number =>44 


amount =>1.28 


3.5.1.8 字符 串 类 型 


字符 串 (String) 类 型 的 值 可 用 单 引 号 或 双 引 号 标识 。 如 果 字 符 串 本 身 在 定义 时 就 含有 
单 引 号 或 双 引 号 的 内 容 , 则 需要 用 反 斜 杠 来 转 义 。 


name => "yuvraj" 
escape =>"value\"ue" 


single => 'Hello It\'s nice you are reading it' 


3.5.2 条 件 判断 的 用 法 
条 件 判 断 语句 用 于 检查 语句 能 被 执行 的 条 件 是 否 满足 。 在 配置 文件 中 ,能 检查 插件 执 
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行 的 条 件 ,其 处 理 方式 和 其 他 编程 语言 相似 ,支持 if、else 和 else if 语句 。 
配置 文件 中 的 条 件 语 句 块 结构 如 下 : 


if EXPRESSION { 
} else if EXPRESSION { 
lelse { 


} 


表达 式 中 包括 一 些 操 作 符 (如 比较 操作 符 、 布 尔 操 作 符 ,一 元 操作 符 等 )。 比 较 操作 符 可 
分 为 等 值 操作 符 、 正 则 表达 操作 符 ,集合 操作 符 等 。 

。 比较 操作 符 : ,1!=, 达 ,过 ,三 = 和 过 

。 正则 表达 操作 符 : 一 一 和 ! 一 。 

。 集合 包含 操作 符 : in 或 not in。 

。 布尔 操作 符 : and 了 、or、not 或 xor。 

。 一 元 操作 符 : !。 

在 本 章 后 续 内 容 中 ,将 会 看 到 如 何 使 用 这 些 操作 符 的 例子 。 

如 上 所 述 ,Logstash 配置 文件 可 分 为 多 个 部 分 。 下 面 就 来 看 看 在 这 些 部 分 中 各 种 可 用 
的 插件 。 








3.6 插件 种 类 


在 下 面 的 内 容 中 ,我 们 来 看 看 一 些 插件 的 用 法 。 
3.6.1 数据 输入 插件 Input 


在 Logstash 中 ,各 种 可 用 的 输入 插件 Input 如 下 图 所 示 。 
详情 可 查看 该 页 面 的 内 容 : https://www. elastic. co/guide/en/logstash/5. 1/input- 
plugins. html 。 


3.6.2 数据 过 滤 插件 Filter 
Logstash 中 可 用 的 数据 过 滤 插 件 Filter 如 下 图 所 示 。 


四 译 者 注 : 此 处 原文 为 nand, 笔 者 认为 此 操作 符 应 为 and。 
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Input 插 件 





Filter 插 件 





详情 可 查看 该 页 面 的 内 容 : https://www. elastic. co/guide/en/logstash/5. 1/filter- 


plugins. html 。 


3.6.3 数据 输出 插件 Output 


Logstash 中 可 用 的 各 种 数据 输出 插件 Output 如 下 图 所 示 。 
详情 可 查看 此 页 面 的 内 容 : https://www. elastic. co/guide/en/logstash/5. 1/output- 


plugins. html 。 


件 关 


上 面 已 经 列 出 了 在 配置 文件 中 各 种 不 同 的 可 用 插件 ( 即 Input、Filter、Output 各 种 插 
下 面 还 有 一 些 位 于 Input 和 Output 中 的 不 同类 型 的 插件 。 





3.6.4 编 解 码 插件 Codec 








作为 数据 输入 和 输出 块 中 的 一 部 分 ,Codec 是 可 能 出 现在 其 中 的 一 部 分 内 容 。 它 用 来 
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Output 插 件 





表示 一 个 事件 中 的 数据 ,也 被 称 为 数据 流 过 滤 (streamr-filter) 插 件 , 因 为 它 提供 了 一 种 进入 
(或 离开 )Logstash 的 编码 (或 解码 ) 的 数据 流 处 理 方式 
在 Logstash 中 各 种 可 用 的 Codec 插件 如 下 图 所 示 。 


Codec 插 件 





详情 可 查看 该 页 面 的 内 容 : https://www. elastic. co/guide/en/logstash/5. 1/codec- 


plugins. html。 


3.7 学 习 数 据 输 几 糙 件 Input 


数据 输入 插件 Input 用 于 从 单一 或 多 源 数据 源 中 获取 数据 ,并 将 其 输送 到 Logstash 
中 。 在 Logstash 的 配置 文件 中 , 它 往往 是 作为 第 一 部 分 出 现 的 。 本 节 后 续 部 分 将 会 介绍 一 
些 输入 插件 的 使 用 。 
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S71 .din 


stdin 是 一 个 相对 简单 的 插件 ,用 于 从 标准 输入 设备 中 读 取 数据 。 它 可 以 读 取 从 控制 台 
输入 的 数据 并 将 数据 传送 到 Logstash 中 。 它 常用 于 验证 Logstash 是 否 正确 安装 ,以 及 是 
和 否 能 读 取 Logstash 中 的 信息 。 

在 配置 文件 中 ,有 关 stdin 的 基本 用 法 如 下 : 


Stdin { 


} 


在 这 个 插件 中 没有 必须 要 设置 的 参数 项 。 如 果 使 用 上 述 设 置 ( 即 未 提供 其 他 额外 的 可 

选 参 数 项 ) , 则 在 控制 台 输 入 的 信息 将 作为 Logstash 的 输入 。 

虽然 没有 必 选 项 ,但 也 可 以 使 用 如 下 一 些 可 选项 。 部 分 可 选项 的 设置 如 下 所 示 : 

。 add_field: 向 输入 数据 中 增加 字段 。 

。 codec: 编 解码 输入 的 数据 ,并 说 明 作为 input 数据 的 格式 。 可 用 的 取 值 是 Codec 插 
件 所 支持 的 取 值 。 

。 enable_metric: 在 每 个 插件 汇报 自己 的 性 能 指标 测度 时 ,接收 (也 可 设置 为 关闭 接 

收 ) 各 项 指标 的 值 。 

id: 为 相应 插件 提供 唯一 的 标识 符 , 可 用 于 跟踪 相应 插件 的 运行 轨迹 信息 ,也 可 用 于 

对 该 插件 的 调试 。 

。 tags: 为 输入 数据 增加 可 用 于 信息 处 理 的 标记 。 对 于 相似 的 事件 处 理 , 可 为 从 给 定 
输入 源 得 到 的 数据 增加 标记 。 它 常用 于 条 件 判 断 中 ,可 对 每 一 个 标记 执行 各 种 不 同 
的 操作 设置 。 

。 type: 为 输入 数据 增加 type 字段 。 从 多 个 不 同 的 数据 源 输入 异 构 数 据 时 ,type 字段 
是 非常 有 用 的 , 它 能 从 众多 数据 源 中 区 分 各 自 的 数据 。type 常用 于 过 滤 filtering 
中 ,使 用 type 可 以 从 不 同 数据 源 中 区 分 不 同 的 处 理 逻 辑 ?。 











值 类 型 及 其 默认 值 如 下 表 所 示 。 
add_field 哈 希 {} 
codec codec “line” 





@ 译 者 注 : 在 输入 数据 中 ,可 以 用 type 来 编辑 事件 或 数据 类 型 ;tags 则 是 在 数据 处 理 过 程 中 由 具体 的 插件 来 添加 
或 删除 的 。 
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续 表 
设 置 默 认 值 
enable_metric true 
id 无 
tags 无 
type 无 





下 面 是 一 个 配置 文件 示例 : 


input { 

stdin { 
add _ field =>{"current time" =>"{@timestamp}"} 
codec =>"json" 
tags => ["stdin-input"] 
type => "stdin" 
} 

} 


在 上 面 的 配置 中 , 提 到 了 基于 JSON 的 编 解码 。 输 入 是 基于 JSON 格式 的 。 进 入 
JSON 的 内 容 将 会 被 解析 为 一 个 个 的 键 值 对 ,并 增添 一 个 current_time 字段 ,其 值 来 源 于 元 
数据 字段 的 timestamp 字段 。 如 果 输 入 任何 非 JSON 格式 的 数据 ,将 会 在 stdin_input 的 


tags 中 返回 _jsonparsefailure 的 信息 。 
3.7.2. {ile 


插件 file 是 最 常见 的 从 文件 中 读 取 信息 的 插件 。 它 表示 从 一 个 文件 或 一 组 文件 中 读 取 
的 数据 流 stream( 类 似 于 使 用 尾 标识 -F)?, 但 其 功能 不 仅 限 于 此 。 作 为 一 个 功能 强大 的 插 
件 , 它 能 完成 很 多 功能 ,如 跟踪 文件 中 的 任何 变化 , 读 取 文 件 的 最 后 位 置 , 用 数据 更 新 该 文 
件 ,检测 文件 的 循环 使 用 情况 ,提供 从 头 到 尾 读 取 文件 的 操作 等 。 

它 保存 从 sincedb 指定 的 位 置 读 取 的 数据 2。 默 认 情 况 下 , 它 是 存放 在 $HOME 目录 
下 的 ,但 其 位 置 可 以 由 sincedb_path 设置 来 改变 。 跟 踪 文 件 的 频 度 可 以 由 sincedb_write_ 





@ 译 者 注 ; Logstash 使 用 start_position 来 确定 从 什么 位 置 开始 读 取 文件 数据 ,默认 是 结束 位 置 ,进程 会 以 类 似 
tailk-F 的 形式 运行 ;如 果 把 start_position 属性 改 为 beginning, 则 进程 就 从 头 开始 读 取 ongoing, 但 读 到 最 后 一 行 不 会 终 
止 ,而 是 继续 变 成 tail_F。 

四 译 者 注 : sincedb 是 一 个 文件 ,用 来 跟踪 被 监听 日 志文 件 的 当前 读 取 位 置 。 
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interval 设置 来 改变 ?。 
对 file 的 基本 配置 如 下 所 示 : 


filef 
Path =>""* 
} 


在 这 个 插件 中 ,只 有 path 设置 是 必须 要 给 出 的 (其 他 都 是 可 选 的 )。 
3.7.3 path 


这 个 插件 定义 拟 读 取 的 目录 或 文件 的 存放 位 置 。 可 以 提供 目录 名 ,指定 的 文件 名 、 待 查 
找 的 文件 名 的 模式 ,还 可 以 指定 单个 或 多 个 拟 查找 的 模式 /文件 位 置 。 


作对 插件 path 的 定义 ,必须 使 用 绝对 而 非 相 对 路 径 。 





其 他 可 选 配置 的 设 定 如 下 : 

。 add_field: 对 输入 的 数据 增加 字段 。 

。 close_older: 关闭 最 后 修改 时 间 比 设 定时 间 还 要 久 的 输入 文件 。 它 可 以 释放 文件 的 
1/O 操作 并 反复 检测 针对 文件 的 改动 。 如 果 一 个 正在 被 追加 数据 的 文件 未 能 及 时 
获取 数据 ,并 且 操 作用 时 已 经 超出 设 定 的 时 间 限 制 ,那么 这 个 文件 将 会 被 关闭 ,以 便 
其 他 文件 能 被 打开 。 之 后 ,每 当 对 文件 更 新 或 修改 时 ,被 关闭 的 文件 才 会 重新 进入 
队列 排队 并 重新 打开 。 

。 codec: 编 解 码 输入 数据 ,并 解释 输入 数据 的 格式 。 

。 delimiter: 识别 文件 中 不 同行 的 分 隔 符 。 

。 discover_interval: 定义 搜索 间隔 值 。 这 些 设置 值 用 于 决定 每 隔 多 久 去 检查 一 次 被 
监听 的 path 下 是 否 有 新 文件 。 

。 enable_metric: 从 每 个 插件 中 得 到 测度 值 ,并 用 于 对 插件 的 报告 。 

。 exclude: 排除 掉 不 作为 输入 ( 即 : 监听 ) 的 文件 或 文件 模式 。 

。 id: 为 插件 提供 一 个 唯一 的 标识 符 , 可 用 于 跟踪 插件 的 信息 ,也 可 用 于 对 插件 的 调试 。 

。 ignore_older: 忽略 读 取 自 从 某 个 时 间 ( 可 设 定 ) 以 来 未 被 修改 的 文件 。 即 使 文件 被 
忽略 ,也 可 被 读 取 。 

。 max_open_files: 定义 同时 打开 文件 的 最 大 数量 。 如 果 需 要 读 取 超过 这 个 阔 值 的 更 
多 的 文件 ,可 以 使 用 close_older 参数 来 关闭 那些 最 近 未 被 修改 过 的 文件 。 如 果 这 


@ 译 者 注 : 如 果 不 想 用 默认 的 $HOME/. sincedb, 可 以 通过 sincedb_path 配置 定义 sincedb 文件 到 其 他 位 置 ; 
sincedb_write_interval 定义 Logstash 每 隔 多 长 时 间 写 yieldsincedb 文件 。 
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个 属性 值 设 置 得 非常 高 ,可 能 会 导致 操作 系统 性 能 方面 的 问题 。 

。 sincedb_path: 定义 写 sincedb 文件 位 置 . 它 用 来 记录 日 志文 件 的 轨迹 。 

。 sincedb_write_interval: 确定 写 sincedb 文件 的 时 间 间 隔 , 包 括 用 于 跟踪 多 日 志文 件 
的 当前 读 写 位 置 。 

。 start_position: 从 头 beginning 至 尾 end。 定 义 从 哪里 开始 读 取 文件 中 的 信息 。 当 
文件 被 初次 读 取 且 在 sincedb 文件 中 未 存放 相应 信息 时 , 才 使 用 这 个 参数 。 如 果 文 
件 包 括 旧 的 数据 ,就 可 以 使 用 这 个 参数 来 确定 从 文件 的 什么 位 置 (而 非 默认 的 位 置 ) 
开始 读 取 文件 中 的 信息 。 

。 stat_interval: 检查 文件 是 否 被 修改 过 。 增 大 这 个 间隔 值 , 将 导致 系统 发 出 更 多 更 频 
繁 的 调用 ,但 如 果 需 要 跟踪 日 志文 件 , 这 个 数值 应 该 调 得 大 些 。 

。 tags: 为 输入 数据 增加 可 用 作 日 后 处 理 的 标记 。 它 多 和 条 件 判断 一 起 使 用 ,每 个 tag 
部 分 执行 一 种 操作 。 多 tag 的 使 用 ,可 有 助 于 执行 各 种 不 同 的 操作 。 

。 type: 为 输入 数据 增加 type 字段 标记 。 从 多 个 不 同 的 数据 源 中 读 取 数据 时 ,该 功能 
是 很 有 用 的 ,因为 使 用 type 可 以 从 众多 不 同 的 数据 源 中 区 分 不 同 数据 。 它 主要 用 
于 过 滤 , 可 以 使 用 type 字段 为 不 同 的 数据 源 增加 不 同 的 处 理 逻 辑 。 

上 述 提 到 的 值 类 型 以 及 它们 的 默认 值 如 下 表 所 示 。 


设置 字段 值 类 型 默 认 值 
add_field 哈 希 {} 





close_older 数值 3600 


























enable_metric 布尔 true 

exclude 数组 无 

id 字符 串 无 

ignore_older 数值 无 

max_open _files 数值 无 

path 数组 无 

sincedb_path 字符 串 $ HOME/. sincedb * 
sincedb_write_interval 数值 15 





start_position 字符 串 “end” 
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续 表 
设置 字段 默 认 值 
stat_interval 1 
tags 无 
type 无 
配置 文件 示例 : 
input { 


file{ 


} 


path => ["/var/log/elasticsearch/* ","/var/messages/* .1og"] 
add field =>["[location]", "%{longitude}" ] 

add field =>["[location]", "%${latitude}"] 

exclude =>["* .txt"] 

start position =>"beginning" 

tags => ["file- input"] 

type =>"filelogs" 


在 上 述 的 配置 文件 中 ,我 们 已 经 看 到 一 组 路 径 path, 文 件 可 被 从 这 里 读 取 。 从 
elasticsearch 文件 夹 中 读 取 文件 ,这 些 文件 在 message 文件 夹 中 ,以 LOG 作为 文件 的 扩展 
名 。 假 设 文件 都 是 有 latitude 和 longitude 位 置信 息 的 ,增加 一 个 location 字段 ,其 中 包括 文 
件 的 latitude 和 longitude 位 置信 息 ( 其 格式 是 Kibana 中 读 取 geoip 数据 的 格式 )。 我 们 排 
除了 配置 文件 中 所 有 的 文本 文件 。 配 置 文件 告诉 Logstash 从 开头 读 取 文件 ,文件 中 含有 想 


要 读 取 的 信息 。 


上 述 配 置 文件 可 分 割 为 两 个 不 同 的 文件 ,其 path 参数 的 值 根据 设 定 的 不 同 的 tags 和 
不 同 的 类 型 而 有 所 不 同 ,代码 片 段 如 下 所 示 。 


input { 
file { 


file { 


Path =>"/var/log/elasticsearch/*" 
tags => ["elasticsearch"] 


type =>"elasticsearch" 


path =>"/var/messages/* .10g" 
tags => ["messages"] 


type => "message" 
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} 
} 


3.7.4 udp 


插件 udp 用 于 基于 UDP 协议 从 网 络 中 来 读 取 数据 。 它 会 列 出 一 组 端口 port, 从 这 些 
端口 可 以 读 取 基于 UDP 协议 的 事件 数据 。 

基于 udp 的 基础 配置 文件 如 下 所 示 : 

udp { 


Port =>... 
} 


在 这 个 插件 中 ,只 有 端口 号 port 的 值 是 必 选 项 (其 他 均 为 可 选项 ): 
。 port: Logstash 从 这 个 端口 来 侦 听 读 取 的 事件 或 信息 。 


食 如 果 使 用 小 于 1024 的 端口 号 , 则 需要 提供 使 用 root 的 特权 。 





除 上 述 的 port 属性 外 ,其 他 可 选 的 设置 信息 如 下 : 

add_field: 向 输入 数据 中 增加 字段 。 

buffer_size: 定义 从 网 络 中 读 取 数据 的 最 大 的 数据 包 大 小 。 

codec: 解码 输入 的 数据 ,并 解释 输入 数据 的 格式 。 

。 enable_metric: 从 每 个 插件 中 得 到 测度 值 ,并 用 于 对 插件 的 报告 。 

host: 设 定 Logstash 将 要 侦 听 的 主机 名 称 。 

。 id: 为 插件 提供 一 个 唯一 的 标识 。 该 id 号 可 用 于 跟踪 插件 的 信息 ,并 可 用 于 对 其 进 
行 调试 。 

。 queue_size: 设 定 可 驻 留 在 内 存 中 的 未 处 理 的 数据 包 的 最 大 数目 。 如 果 待 处 理 的 数 

据 包 的 数目 大 于 这 个 设 定 的 queue_size 值 , 则 相应 的 数据 将 会 被 丢弃 。 

receive_buffer_bytes: 用 于 定义 接收 的 缓存 大 小 ( 字 节 数 )。 如 果 不 设 定 该 值 , 则 使 

用 操作 系统 默认 值 。 

。 tags: 为 读 人 的 数据 增加 可 用 于 后 续 处 理 的 标记 。 该 标记 多 用 于 条 件 语句 ,可 用 于 
在 每 一 个 tags 中 执行 相应 的 不 同 操 作 。 

。 type: 为 输入 数据 增加 type 字段 标记 。 从 多 个 不 同 的 数据 源 中 读 取 数 据 时 ,该 功能 
是 很 有 用 的 。 使 用 type. 可 以 从 众多 不 同 的 数据 源 中 区 分 不 同 的 数据 。 它 主要 用 于 
过 滤 ,可 以 使 用 type 字段 ,为 不 同 的 数据 源 增 加 不 同 的 处 理 逻辑 。 

。 workers: 定义 处 理 数据 包 的 线程 数量 。 

上 述 提 到 的 值 类 型 以 及 它们 的 默认 值 如 下 表 所 示 。 
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设 置 默 认 值 
add_field {} 
buffer_size 65536 
codec “plain” 
enable_metric true 
host “0 
id 无 
port 无 
queue_size 2000 
receive_buffer_bytes 无 
tags 无 
type 无 
workers 2 

配置 文件 示例 : 
inPut{ 
udp { 


host =>"192.168.0.6" 
Port =>5000 


workers =>4 


} 


在 上 面 的 配置 示例 中 ,我 们 已 经 注意 到 使 用 了 host 和 port, Logstash 会 从 这 里 读 取 事 
件 和 数据 。 我 们 还 设 定 workers 准 值 是 4, 表 示 有 4 个 线程 将 用 于 并 行 处 理 网 络 数据 包 。 


3.8 学 习 数 根 过 洪 酝 件 Filter 


过 滤 插 件 Filter 执行 对 数据 的 转换 。 如 果 需 要 对 获取 的 输入 数据 执行 某 种 转换 操作 ， 
使 用 Filter 插件 能 (在 将 数据 输出 前 ) 完 成 对 数据 的 相关 操作 了 。 它 在 数据 的 输入 和 输出 之 
间 扮 演 者 中 间 人 的 角色 。 该 插件 需要 在 Logstash 的 配置 文件 中 进行 设置 。 





首先 让 我 们 看 看 一 些 过 滤 插 件 。 


四 译 者 注 : 它们 扩展 了 进入 到 过 滤器 的 原始 数据 .增加 了 可 能 复杂 的 逻辑 处 理 ( 如 可 添加 新 的 事件 event) 。 


A 
'84 ， 精通 Elastic Stack 





3.8.1 grok 


插件 grok 是 在 Logstash 中 最 常 使 用 的 一 种 将 非 结 构 化 数据 转换 为 结构 化 数据 的 功能 
强大 的 插件 。 即 使 是 结构 化 的 数据 ,也 可 以 使 用 这 种 模式 完成 数据 序列 化 操作 。 由 于 grok 
模式 的 强大 且 自然 的 功能 ,Logstash 也 被 称 为 瑞士 军刀 。grok 可 以 完成 解析 且 结构 化 数据 
的 任务 。 只 要 是 可 读 取 的 日 志文 件 , 它 都 可 解析 。 它 将 文本 模式 结合 到 数据 结构 化 中 ,将 相 
应 的 日 志文 件 匹 配 、 组 织 并 结合 到 相应 字段 中 。Logstash 提供 了 超过 120 种 便于 使 用 的 
grok 模式 ,也 可 以 生成 适合 自己 需求 的 匹配 grok 的 新 模式 。 





人 @ grok 模式 的 资源 可 以 在 这 里 下 载 : https://github. com/logstash-plugins/ 
logstash-patterns-core/tree/master/patterns。 随 着 Logstash 的 安装 ,它们 也 安装 
到 相应 的 文件 夹 中 ,可 以 通过 搜索 grok 模式 文件 找到 它们 。 





grok 模式 的 基本 语法 如 下 : 
% {SYNTAX: SEMANTIC} 


这 里 ,SYNTAX 是 用 于 匹配 数据 的 模式 (或 正则 表达 式 ) 名 称 , SEMANTIC 是 标识 符 
或 字段 名 称 ( 它 提供 匹配 的 模式 或 正则 表达 式 ,如 在 语法 中 定义 的 那样 ) 。 

有 了 grok, 就 可 以 使 用 正则 表达 式 或 者 生成 自己 个 性 化 的 模式 。 使 用 的 正则 表达 式 库 
是 Oniguruma, 其 正则 语法 可 下 载 : https://github. com/kkos/oniguruma/blob/master/ 
doc/RE。 可 以 生成 个 性 化 的 模式 文件 ,其 中 包括 用 于 匹配 相关 数据 的 自 定义 模式 。grok 
从 左 到 右 依 次 匹配 数据 ,并 且 一 个 一 个 地 匹配 相应 模式 。 

下 面 针 对 一 些 日 志文 件 ,来 看 看 如 何 使 用 grok 模式 来 匹配 它们 。 

假如 有 如 下 一 条 简单 的 日 志 行 : 


Log line: Jun 19 02:11:30 This is sample 10g. 
使 用 现 有 的 grok 模式 生成 一 条 匹配 上 述 日 志 信 息 行 的 grok 模式 。 
$ {CISCOTIMESTAMP:timestamp} %${GREEDYDATA: 10g} 

为 便于 理解 ,让 我 们 来 看 一 看 规定 的 模式 。 


CISCOTIMESTAMP % {MONTH} +% {MONTHDAY} (? : $ {YEAR})? $ {TIME} 
GREEDYDATA .* 


看 起 来 不 好 理解 。 怎 么 知道 哪个 模式 能 匹配 我 们 的 数据 ? 
我 也 同意 这 个 说 法 ,毕竟 不 好 理解 哪 一 种 模式 可 用 , 哪 一 种 模式 能 匹配 我 们 的 数据 。 但 
不 必 担 心 ,你 的 朋友 们 将 会 帮助 你 发 现 适 合 你 的 模式 ,以 便 能 针对 每 一 个 需求 修改 对 应 的 模 


式 。 
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可 以 访问 下 面 两 个 网 站 获取 帮助 ,它们 能 帮助 你 构建 匹配 你 的 数据 的 模式 : 
。 http://grokdebug. herokuapp. com 
。 http://grokconstructor. appspot. com/ 


有 关 grok 的 基本 配置 信息 如 下 : 


grok { 


} 


使 用 这 个 插件 时 没有 必 选 项 。 其 他 可 选项 的 设置 值 如 下 : 

。 add_field: 为 输入 的 数据 增添 字段 。 

。 add_tag: 为 输入 的 数据 增添 tag。 这 些 tag 可 以 是 输入 数据 中 基于 key 值 的 静态 或 
动态 的 tag。 

。 break_on_match: 如 果 设 置 为 true,grok 的 第 一 个 成 功 匹配 将 结束 filter 操作 。 如 
果 它 成 功 匹配 模式 ,将 会 完成 过 滤 操 作 。 若 想 完成 所 有 的 匹配 , 它 应 该 设 为 false。 

。 keep_empty_captures: 如 果 设 为 true, 它 将 被 用 于 保存 空 的 事件 字段 。 

。 match: 匹配 有 值 的 字段 。 该 值 用 于 单 模式 或 多 模式 (多 模式 可 以 以 数组 方式 提供 )。 

。 named_captures_only: 如 果 该 值 设 置 为 true, 则 用 于 使 用 grok 模式 定义 的 字段 。 

。 overwrite: 覆盖 字段 中 的 值 。 它 将 会 复写 已 经 存在 的 字段 值 。 

。 patterns_dir: 指向 目录 。 可 以 定义 个 性 化 的 模式 ,可 以 定义 单个 目录 或 多 个 目录 。 

。 patterns_files_glob: 如 果 设 置 为 patterns_dir, 则 用 来 选择 目录 中 的 所 有 文件 。 

。 periodic_flush: 在 规定 的 时 间 间 隔 , 周 期 性 地 调用 flush 方法 (定期 调用 清理 缓存 的 
一 种 方法 ) 。 

。 remove_field: 从 输入 数据 中 移 除 字 段 。 

。 remove_tag: 从 输入 数据 中 移 除 tag。 

。 tag_on_failure: 如 果 事 件 无 法 匹配 grok 模式 ,或 者 没有 成 功 匹 配 特定 值 的 模式 , 则 
返回 tag 出 错 信 息 。 

。 tag_on_timeout: 如 果 grok 正则 表达 式 超时 , 则 产生 新 的 tag。 

。 timeout_millis: 如 果 超 过 设 定 时 间 , 则 中 断 正则 表达 式 。 如 果 有 多 个 针对 grok 的 
模式 , 则 对 每 一 条 模式 均 有 效 。 它 是 毫秒 级 的 。 

上 述 设置 的 值 类 型 以 及 它们 的 默认 值 如 下 表 所 示 。 





设 置 值 类 型 默 认 值 





add_field 险 希 {} 





add_tag 数组 Ey 
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续 表 
设 置 默 认 值 

break_on_match true 
keep_empty_captures false 

match {} 
name_captures_only true 

Overwrite [J 

patterns_dir [] 
patterns_files_glob 攻 委 人 

periodic_flush false 

remove_field E33 

remove_tag [] 

tag_on_failure [*_grokparsefailure”] 





tag_on_timeout ”_groktimeout” 


timeout_millis 2000 





配置 文件 示例 : 


filter { 
grok { 
add field =>{"current time" =>"%{@timestamp}" } 
match =>{ "message" =>"% {CISCOTIMESTAMP:timestamp}®% {HOST:host} % 
{WORD:program}: \ [% {NUMBER: duration}]% {GREEDYDATA:10g}" } 
remove field=>["host "] 


remove tag =>["grok", "test"] 


} 

在 上 面 的 配置 中 ,我 们 利用 定义 的 模式 来 匹配 数据 。 如 果 模 式 未 被 匹配 , 则 会 增加 一 个 
_grokparsefailure 的 tag。 它 也 将 会 从 信息 中 移 除 host 字段 。 
3.8.2 mutate 

mutate 过 滤 插 件 用 于 执行 各 种 各 样 的 对 字段 的 重 构 和 处 理 ( 例 如 对 字段 的 重 命名 , 连 
接 字段 ,将 字段 转 为 大 写 或 小 写 , 拆 分 字符 串 或 者 转换 字段 的 数据 类 型 等 )。 

有 关 mutate 的 基本 配置 操作 如 下 所 示 : 
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mute { 


. 


使 用 这 个 插件 时 没有 必 选 项 。 其 他 可 选项 的 设置 值 如 下 : 

。 add_field: 用 于 向 输入 数据 中 增加 字段 。 

。 add_tag: 用 于 为 输入 的 数据 增添 tag。 这 些 tag 可 以 是 输入 数据 中 基于 key 值 的 静 
态 或 动态 的 tag。 

convert: 用 于 转换 字段 的 数据 类 型 。 可 以 将 字段 值 转换 为 整 型 .字符 串 ,布尔 型 .日 
期 型 或 浮 点 型 等 。 


全 所 有 存储 在 Elasticsearch 中 的 字段 数据 类 型 都 是 字符 串 型 的 。 如 果 需 要 转换 相 


应 字段 的 数据 类 型 ,可 使 用 convert 来 完成 转换 。 





。 gsub: 用 正则 表达 式 完成 搜索 和 替换 字段 中 值 的 功能 。 类 似 于 UNIX 系统 中 的 
sed 命令 。 其 输入 有 三 个 参数 (字段 名 、 搜 索 模式 、 蔡 换 ) 。 它 仅 对 字符 串 类 型 字段 
有 效 。 





人 @ 在 搜索 模式 中 不 要 忘记 反 斜 杠 。 





。 join: 用 定义 的 字符 来 连接 数组 中 的 值 ,只 用 于 数据 类 型 是 数组 的 字段 。 

。 lowercase: 将 西 文字 符 值 转换 为 小 写 。 

。 merge: 对 数组 或 哈 希 数据 类 型 的 两 个 字段 的 连接 操作 。 字 符 串 类 型 的 字段 将 会 转 

换 为 一 个 数组 ,以 便 能 使 用 数组 将 其 连接 起 来 ?。 

periodic_flush: 在 规定 的 时 间 间 隔 内 ,周期 性 地 调用 flush 方法 。 

remove_field: 从 输入 数据 中 移 除 字段 。 

。 remove_tag: 从 输入 数据 中 移 除 tag。 

。 rename: 为 字段 改名 。 

。 replace: 替换 字段 中 的 值 。 

。 split: 用 一 个 分 隔 符 来 拆 分 某 个 字段 .使 其 成 为 一 个 数组 。 它 只 在 字符 串 数据 类 型 
的 字段 中 起 作用 。 

。 strip: 删除 字段 值 中 的 空格 。 

。 update: 更 新 某 个 字段 的 值 。 如 果 该 字段 不 存在 , 则 update 不 起 作用 。 


@ 译 者 注 : 如 果 拟 操作 字段 是 字符 串 , 则 会 自动 先 转换 为 一 个 单元 素 的 数组 ,再 完成 合并 ;即使 目的 字段 不 是 数 
组 ,也 会 被 强制 转换 。 
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。 uppercase: 将 西 文字 符 值 转换 为 大 写 。 
上 述 设置 的 值 类 型 以 及 它们 的 默认 值 如 下 表 所 示 。 


设 置 





add_field 





add_tag 





convert 





gsub 





join 





lowercase 
merge 


periodic_flush 





remove_field 
remove_tag 
rename 
replace 

split 

strip 

update 


uppercase 


配置 文件 示例 : 


filter { 
mutate { 


convert =>{"fieldl" =>"float" } 





gsub =>["field2","!","+"] 
lowercase =>["field2"] 

rename => {"field1" =>"newfield"} 
strip => ["field1", "field2"] 


update => {"field2" =>"It's easy to update"} 


} 


在 上 面 的 配置 文件 示例 中 ,给 出 了 mutate 的 应 用 示例 。 
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3.8,3 wsv 


插件 csv 用 于 对 接收 到 的 输入 CSV 类 型 的 数据 执行 各 种 操作 ,解析 由 逗号 分 隔 开 的 
CSV 类 型 的 数据 。 虽 然 它 是 CSV 类 型 的 数据 的 过 滤 插 件 , 但 它 在 解析 有 任何 分 隔 符 分 开 
的 数据 方面 ,也 有 不 俗 的 表现 。 

基于 csv 的 基础 配置 如 下 所 示 : 


csv { 


} 


在 这 个 插件 中 ,没有 哪 种 配置 是 必 选 的 。 可 选 的 设置 如 下 所 示 : 

。 add_field: 为 输入 的 数据 增加 字段 。 

。 add_tag: 为 输入 的 数据 增添 tag。 这 些 tag 可 以 是 输入 数据 中 基于 key 值 的 静态 或 
动态 的 tag。 

。 autogenerate_column_names: 如 设置 值 为 true, 则 自动 为 字段 生成 名 字 。 如 果 提 供 
一 个 header, 它 也 可 被 用 作 列 名 。 

。 columns: 为 在 文件 中 出 现 的 数据 列 定义 名 称 。 如 果 未 指定 数据 列 的 名 称 , 则 使 用 

默认 的 列 名 ,如 columnl column2 等 。 如 果 有 大 量 的 列 , 则 列 名 自动 编号 。 它 可 用 

于 当 文 件 没有 header 时 对 相应 列 名 的 定义 。 

convert: 对 字段 数据 类 型 的 转换 。 可 以 将 字段 值 转换 为 整 型 .字符 串 型 ,布尔 型 .日 

期 型 或 浮 点 型 。 

periodic_flush: 在 规定 的 时 间 间 隔 内 ,周期 性 地 调用 flush 方法 。 

。 quote_char: 指定 字符 串 ,引用 CSV 字段 中 的 值 。 

remove_field: 从 读 取 的 数据 中 去 掉 某 些 特定 的 字段 。 

。 remove_tag: 从 读 取 的 数据 中 去 掉 某 些 特定 的 tag 标记 。 

。 separator: 定义 列 的 分 隔 符 。 

。 skip_empty_columns: 定义 是 否 跳 过 空白 的 列 。 

。 source: 扩展 source 字段 的 值 。 

target: 设 定 存储 数据 的 目标 字段 。 

上 述 设置 的 值 类 型 以 及 它们 的 默认 值 如 下 表 所 示 。 


. 





设 置 值 类 型 默 认 值 





add_field 哈 希 站 
add_tag 数组 E34 
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续 表 
设 置 默 认 值 

autogenerate_column_names true 
columns | 
convert {} 
periodic_flush false 
quote_char 党 
remove field 于 
remove_tag | 
separator 
skip_empty_columns false 
source “message” 
target 无 

配置 文件 示例 : 

filter { 

CSV { 


columns => ["id", "name", "money"] 
convert =>{"id" =>"integer", "money" =>"float"} 


quote char =>"#" 


separator =>" " 


} 
在 上 面 的 配置 文件 示例 中 ,能 看 到 前 面 提 到 过 的 columns。 我 们 转换 了 字段 的 数据 类 
型 ,改变 了 引用 字符 的 值 ,还 指定 了 分 隔 符 用 tab 分 隔 数据 列 。 


3.9 学习 数据 输出 插件 Output 


数据 输出 插件 Output 用 于 将 数据 发 送 到 目的 地 。 在 Logstash 的 配置 文件 中 , 它 是 最 
后 一 部 分 。 下 面 介绍 常用 的 输出 插件 。 





3.9.1 stdout 
这 是 一 个 相对 简单 的 插件 ,用 于 把 数据 输出 到 shell 程序 的 标准 输出 端 ,可 用 于 调试 使 
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用 插件 的 配置 文件 。 它 常用 于 验证 Logstash 是 否 正确 解析 输入 的 数据 与 是 否 正确 使 用 过 
滤器 (如 果 有 的 话 )。 
stdout 的 基础 配置 文件 如 下 所 示 : 


stdout { 


} 


在 这 个 插件 中 ,没有 必须 要 指定 的 设置 值 。 部 分 可 选项 如 下 所 示 : 

。 codec: 对 即将 发 送 到 输出 端的 数据 进行 编 . 解 码 。 能 (将 数据 ) 使 用 Codec 以 JSON 
格式 来 展示 JSON 格式 的 输出 数据 ,或 者 (将 数据 ) 使 用 Codec 以 rubydebug 格式 来 
展示 输出 使 用 了 Ruby Awesome Print 库 的 数据 。 

。 workers: 定义 将 要 处 理 输出 数据 包 的 线程 数量 。 

上 述 设置 的 值 类 型 及 其 对 应 的 默认 值 如 下 表 所 示 。 


设 置 


codec 





workers 


配置 文件 示例 如 下 : 


output { 
stdout { 
codec =>rubydebug 
workers =>2 
} 
} 


在 前 面 的 设置 中 ,我 们 已 经 注意 到 rubydebug 格式 的 Codec, 它 将 输出 结果 打印 到 标准 
输出 设备 shell 上 。 


3.9.2 file 


文件 插件 file 用 于 向 文件 中 输出 信息 。 它 能 生成 存储 输出 信息 的 文件 ,该 文件 日 后 也 
可 以 使 用 。 默 认 情 况 下 , 它 以 JSON 格式 向 文件 中 输出 信息 ,每 行 是 一 个 事件 (event) ,并 可 
通过 编 . 解 码 插件 Codec 完成 对 某 种 数据 格式 的 转换 。 

file 的 基本 配置 信息 如 下 所 示 : 


file { 
Path =>... 
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} 


在 这 个 插件 中 ,只 有 path 属性 是 必须 要 设置 的 (其 他 均 为 可 选项 )。 
。 path: 指定 文件 将 要 输出 的 路 径 。 它 可 以 是 某 个 目录 的 位 置 ,也 可 以 是 某 个 文件 的 


名 字 ( 文 件 将 被 写 人 到 这 里 )。 可 以 直接 提供 文件 的 名 字 ,或 者 使 用 字段 名 来 创建 该 
文件 。 


其 他 可 选项 如 下 : 


codec: 在 数据 输出 前 对 数据 的 编 、 解 码 操作 。 

create_if_deleted: 产生 一 个 文件 (即使 文件 可 能 已 被 删除 )。 针 对 输入 数据 的 解析 
完成 后 ,信息 将 会 存 到 该 输出 文件 中 (如 果 该 文件 已 经 被 删除 ,因为 设置 过 这 个 属 
性 ,系统 就 会 重新 生成 该 文件 ) 。 

dir_mode: 定义 使 用 目录 的 模式 。 

file_mode: 定义 使 用 文件 的 模式 。 

filename_failure: 如 果 提 供 的 路 径 不 正确 , 则 所 有 输出 信息 将 会 写 入 这 个 文件 中 。 
在 配置 文件 针对 该 属性 的 字段 中 ,完成 对 相关 属性 的 设 定 工作 。 

flush_interval: 确定 写 入 文件 的 设 定时 间 间 隔 ( 秒 级 ) 。 

gzip: 把 信息 写 人 或 存储 到 文件 前 ,对 相关 信息 以 gzip 格式 输出 。 

workers: 定义 将 要 处 理 输出 数据 包 的 线程 数量 。 


上 述 设 置 的 值 类 型 以 及 它们 的 默认 值 如 下 表 所 示 。 


设 置 默 认 值 
codec “json_lines” 
create_if_deleted true 
dir_mode 二 和 
file_mode = 





filename_failure 

















flush_interval 2 
gzip false 
path 无 
workers 1 
配置 文件 示例 如 下 : 
output { 


file { 
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create if deleted =>true 

file mode =>777 

filename failure =>"failedpath file" 
flush interval =>0 

path =>"/usr/share/logstash/file.txt" 


} 


在 上 述 配置 文件 中 ,定义 了 使 用 文件 的 模式 ,也 设 定 了 重新 生成 文件 的 操作 (如 果 它 被 
删除 了 )。 参 数 flush_internal 设置 为 0, 即 它 接收 到 每 个 事件 后 (event) ,会 把 相应 的 信息 输 
出 到 文件 中 。 其 中 也 定义 了 文件 路 径 (path) ,将 在 该 路 径 下 新 建文 件 ( 用 于 存储 输出 的 信 
息 )。 


3.9.3 elasticsearch 


输出 插件 elasticsearch 用 于 将 数据 从 Logstash 输出 到 Elasticsearch 中 。 它 是 最 常用 
的 输出 过 滤 插 件 之 一 ,用 于 将 数据 发 送 到 Elasticsearch 中 。 如 果 想 在 Kibana 中 可 视 化 数 
据 , 则 需要 把 数据 发 送 到 Elasticsearch 中 。Kibana 使 用 存储 在 Elasticsearch 中 的 数据 来 完 
成 可 视 化 。 

有 关 Elasticsearch 插件 的 基本 配置 如 下 所 示 : 


elasticsearch { 


} 


在 这 个 插件 中 ,没有 必 选 的 属性 项 ( 即 : 都 是 可 选项 )。 

这 个 输出 插件 有 各 种 各 样 的 可 选 属 性 项 ,但 这 里 只 较 详细 地 介绍 其 中 的 几 种 。 

。 action: 对 存储 在 Elasticsearch 中 的 文档 执行 各 种 操作 ,如 index( 为 文档 产生 索 
引 ) ,delete( 删 除 指定 ID 号 的 文档 )、create( 生 成 和 索引 文档 ,此 时 ID 号 是 唯一 标识 
符 ) ,update( 更 新 指定 ID 的 文档 ) 。 

。 cacert : 为 . cer 和 . pem 文件 提供 绝对 路 径 , 用 于 在 获取 信息 时 对 服务 器 的 安全 性 
验证 。 

。 codec: 在 将 数据 发 送 到 输出 前 ,编码 .解码 相应 的 数据 。 

。 doc_as_upsert: 该 属性 对 每 一 特定 文档 的 更 新 模式 有 效 。 这 是 一 个 upsert 模式 。 
当 某 个 文档 有 一 个 已 知 的 ID 号 时 , 则 更 新 该 ID 号 对 应 的 相应 文档 。 如 果 文 档 的 某 
个 ID 不 存在 , 则 用 这 个 ID 号 新 生成 一 个 文档 。 

。 document_ id: 为 文档 设 定 ID 号 ,该 ID 作为 唯一 标识 符 。 一 般 情 况 下 ,该 值 建议 设 
置 为 自 增 的 值 。 
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。 document_type: 提供 在 文档 (document) 中 将 要 被 存储 数据 的 文档 类 型 (type) 。 在 
前 面 的 章节 已 讲述 过 ,一 个 索引 (index) 可 以 包括 多 个 类 型 (type) ,所 以 在 数据 输出 
时 ,需要 指定 是 哪些 具体 类 型 (type) 的 索引 (index) 。 

。 hosts: 为 便于 和 Elasticsearch 节点 进行 通信 ,需要 指定 主机 IP 地 址 (端口 )。 在 这 

里 设置 的 值 将 要 和 Elasticsearch 节点 连接 并 完成 发 送信 息 的 任务 。 可 以 一 次 指定 

单个 或 多 个 hosts。 默 认 情 况 下 ,这 个 工作 端口 是 9200。 








人 不 要 在 hosts 属性 中 设置 Elasticsearch 的 独立 主机 master 节点 ,否则 将 会 向 主 
机 master 节点 发 送 输 入 信息 人。 





index: 设置 索引 (index) 的 名 称 ,数据 将 会 写 和 人 到 该 索引 中 。 索 引 名 称 可 以 是 静态 

的 名 称 , 也 可 以 来 自 某 个 字段 值 ,或 者 是 使 用 了 正则 表达 式 的 动态 的 索引 名 称 。 

path: 使 用 代理 proxy 连接 Elasticsearch 节点 时 需要 设置 该 项 的 值 。 在 这 里 应 该 指 

定 到 达 Elasticsearch 节点 的 路 径 (path) 。 

。 proxy: 指定 能 连接 到 Elasticsearch 节点 的 代理 服务 器 地 址 。 

。 ssl: 使 得 基于 Secured Socket Layer (SSL ) 的 传输 或 基于 Transport Layer Security 
(TLS) 的 数据 连接 交换 方式 有 效 。 它 将 会 以 一 种 安全 通信 通道 的 方式 连接 到 
Elasticsearch 的 节点 或 集群 上 。 

上 述 设 置 的 值 类 型 以 及 它们 的 默认 值 如 下 表 所 示 。 














设 置 默 认 值 
action “index” 
cacert 无 
codec “plain” 
doc_as_upset false 
document_id 过 
document_type 字符 串 无 
hosts 数组 C127:0 0 9] 





@ 启动 Elasticsearch 的 实例 时 会 启动 至 少 一 个 节点 。 节 点 类 型 有 主 (master) 节 点 .数据 (data) 节点、 客户 端 节点 、 
部 落 (tribe) 节 点 。 对 于 规模 较 大 、 用 户 较 多 的 集群 ,master 和 client 在 一 些 极端 使 用 情况 下 可 能 会 有 性 能 瓶颈 ,从 而 使 得 
共存 的 数据 节点 发 生 故障 。 如 果 将 master 和 client 独立 出 来 ,一 旦 出 现 问题 ,重启 后 几乎 瞬间 就 能 恢复 。 另 外 将 这 些 角 
色 独 立 出 来 以 后 ,也 将 对 应 的 计算 资源 消耗 从 数据 节点 中 剥离 出 来 ,更 容易 掌握 数据 节点 资源 消耗 与 写 人 量 和 查询 量 之 
间 的 联系 ,便于 做 容量 管理 和 规划 。 
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续 表 
设 置 默 认 值 
index logstash-% {+ YYYY. MM. dd} 
path 六 
proxy 无 
ssl 无 
配置 文件 示例 : 
output { 


elasticsearch { 
cacert =>"/usr/share/logstash/cert .pem" 
doc as upsert =>true 
document type =>"elasticsearch" 
hosts => ["localhost:9200","127.0.0.3:9201"] 
index =>"logstash" 
ssl =>true } 
} 
在 上 面 的 配置 文件 示例 中 , 设 定 了 路 径 , 启 用 了 针对 文档 的 upsert 功能 (doc_as_ 
upsert), 使 用 了 用 于 存储 输出 文件 的 document _ type。 在 该 配置 文件 中 设 定 了 
Elasticsearch 集群 节点 hosts, 设 定 了 Logstash 的 index, 用 来 连接 、 写 和 人 相应 的 数据 。 


3.10 ”学 习 编 解码 插件 Codec 


编 解 码 插件 Codec 用 来 编码 .解码 数据 。 由 于 输入 数据 可 以 是 各 种 格式 的 , 且 在 读 取 数 
据 后 可 能 会 将 其 存储 输出 到 其 他 不 同 格式 的 目的 地 中 ,因此 需要 Codec 插件 。 本 节 介 绍 其 
中 的 一 部 分 Codec 插件 。 
3. 10.1 rubydebug 


rubydebug Codec 是 相对 简单 的 一 种 编 解 码 插件 ,基于 Ruby Awesome Print 库 。 它 将 
数据 输出 到 标准 shell 程序 的 控制 台中 。 
基于 rubydebug 的 基本 配置 文件 如 下 所 示 : 


rubydebug { 


} 
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本 插件 没有 必 选 属性 。 可 选 属性 的 设置 如 下 所 示 : 


。 metadata: 设置 向 shell 程序 输出 信息 时 ,是 否 包含 元 数据 (metadata)。 
其 相关 的 值 类 型 及 其 默认 值 如 下 表 所 示 : 





metadata 布尔 false 
配置 示例 文件 如 下 : 
codec { 


rubydebug { metadata =>true } 
} 


3.10.2 json 


json 编 解 码 插件 是 一 个 相对 简单 的 插件 ,用 于 编 解 码 基 于 json 的 数据 。 





全 如 果 json 记录 通过 /n 分 隔 , 则 应 该 使 用 json_lines 编 解码 插件 。 





基于 json 的 一 个 简单 配置 示例 如 下 所 示 : 


json { 
} 


在 这 个 插件 中 没有 必 选 项 。 可 选项 如 下 所 示 : 


。 charset: 用 于 设置 针对 数据 的 字符 编码 。 该 值 可 以 设置 为 UTF-8, 或 者 是 和 输入 数 
据 的 字符 编码 方式 一 样 。 
相应 的 属性 设置 及 其 默认 值 如 下 表 所 示 : 


设 置 值 类 型 默 认 值 
charset 字符 串 UTF-8 


配置 文件 示例 如 下 : 





codec { 


json { charset =>"UTF-8-MAC" } 
} 
3.10.3 avro 


avro 插件 读 取 以 avro 格式 输入 的 数据 ,并 对 avro 格式 记录 的 编码 .解码 。 它 常常 使 用 
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Kafka 输入 ,因为 Kafka 是 以 avro 压缩 数据 的 格式 来 发 送 数据 的 。Kafka 是 一 种 高 扩展 性 
的 消息 队列 ,用 于 处 理 实时 的 流 数 据 2。 





@ avro 是 一 种 由 社区 维护 的 插件 ,可 能 不 会 出 现在 Logstash 的 插件 中 。 











有 关 avro 的 基本 配置 如 下 所 示 : 


avrof{ 
schema uri =>... 


} 

在 这 个 插件 中 ,只 有 schema_uri 是 必 选 项 (其 余 均 为 可 选项 ) 。 

。 schema_uri: 用 于 设 定 模式 (schema) 文 件 ,avro 需 从 中 读 取 数据 。 该 文件 可 以 是 本 
地 文件 ,也 可 以 是 以 HTTP URL 表示 的 文件 。 





其 值 类 型 及 其 默认 值 如 下 表 所 示 
设 置 默 认 值 
schema_uri 无 





配置 文件 示例 如 下 : 


codec { 
avrof{ 


schema uri =>"/usr/share/logstash/input-schema.avsc" 


3.10.4 multiline 


multiline 插件 是 一 种 非常 重要 的 Codec 插件 ,用 于 把 多 个 事件 (event) 合 并 为 一 个 。 使 
用 它 , 可 以 把 捕获 Java 异常 ,多 个 异常 事件 等 合并 为 一 个 事件 。 这 在 监控 log 日 志 或 执行 
日 志 分 析 时 是 有 用 的 。 借 助 于 各 种 各 样 的 正则 表达 式 , 可 以 确定 哪些 行 和 相应 的 事件 是 有 
关 的 。 








@@ multiline 过 滤 已 经 弃 用 ,推荐 使 用 multiline 编 解码 Codec。 








有 关 multiline 的 基本 配置 信息 示例 如 下 所 示 : 


四 译 者 注 : Kafka 是 一 种 高 吞吐 量 的 分 布 式 发 布 订阅 消息 系统 。 
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multiline { 

Pattern =>... 

what =>...} 

这 个 插件 中 的 patten 和 what 属性 是 必 选 项 。 

。 pattern: 设置 匹配 模式 来 匹配 相应 的 事件 。 可 以 使 用 正则 表达 式 , 或 者 使 用 基于 
grok 的 模式 来 匹配 事件 。 

。 what: 定义 匹配 模式 是 作为 前 面 的 事件 还 是 后 面 的 事件 (event) 的 一 部 分 。 它 决定 
了 匹配 的 模式 是 属于 哪 部 分 事件 (event) 的 。 其 取 值 可 以 是 previous 或 next( 分 别 
指 对 应 前 面 还 是 后 面 的 事件 )。 

其 他 可 选 的 配置 项 如 下 所 示 : 

。 auto_flush_interval: 如 果 能 匹配 到 特定 的 模式 或 者 没有 接收 到 新 的 数据 ,该 参数 用 

于 设 定 被 转换 为 事件 的 时 间 间 隔 。 如 果 设 定 了 这 个 值 , 则 过 了 设 定 的 时 间 ( 秒 ) 后 ， 

事件 将 会 被 推送 至 输出 端 。 

charset: 确定 数据 使 用 的 字符 集 编码 方式 。 该 值 被 设置 为 标准 的 UTF-8, 或 设置 为 

和 输入 数据 的 编码 方式 一 样 。 

。 max_bytes: 在 Logstash 写 和 俘获 的 multiline 事件 至 输出 前 ,该 参数 用 于 设 定 最 大 


的 字 节 数 。 
。max_lines: 在 Logstash 写 入 俘获 的 multiline 事件 至 输出 前 ,该 参数 用 于 设 定 最 大 
的 文件 行 数 。 


。 multiline_tag: 向 multiline 事件 增加 tag, 以 便 匹 配 相 应 的 模式 。 

。 negate: 确定 匹配 了 模式 的 事件 (event) 是 否 是 multiline 事件 的 一 部 分 ,以 及 在 哪个 
设 定 下 的 值 将 要 被 使 用 。 

patterns_dir: 设 定 自 定义 模式 存放 的 文件 夹 。 可 以 设 定单 目录 或 多 目录 路 径 。 只 
有 自 定义 模式 时 ,这 个 选项 才 可 能 用 到 。 

值 类 型 及 其 对 应 的 默认 值 如 下 表 所 示 : 




















设 置 值 类 型 默 认 值 
auto_flush_interval 数值 无 
charset 字符 串 UTF-8 
max_bytes 字 节 10MiB 
max_lines 数值 500 
multiline_tag 字符 串 multiline 





negate 布尔 false 
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续 表 
设 。 秆 默 认 什 
pattern 无 
patterns_dir 回 
what 无 
配置 示例 如 下 : 
codec { 


multiline { 

multiline tag =>"multiline-event" 
pattern =>"^\[" 

negate =>"true" 


what =>"next" 


} 


在 上 述 配 置 中 ,设置 了 codec 中 的 multiline, 设 置 了 tag( 其 名 称 为 multiline_event) 并 
在 其 中 标识 了 所 有 的 multiline 事件 ,并 特别 标明 了 搜索 模式 , 注 明 了 行 是 以 方 括号 ([) 开 始 
的 ; 注 明 了 what 取 值 next, 表 明 匹 配 的 multiline 事件 应 该 是 下 一 个 事件 (next event) 中 的 
一 部 分 ;negate 取 值 true, 表 明 在 日 志 中 搜索 模式 (pattern) ,直到 该 模式 (pattern) 找 到 。 它 
被 认为 是 单 事 件 中 的 一 部 分 。 

本 章 曾 提 到 Logstash 中 有 超过 200 种 由 Elastic 和 相关 社区 开发 的 插件 可 供 使 用 。 现 
在 ,你 可 能 对 新 插件 还 有 疑惑 , 即 : 如 果 一 个 新 的 插件 被 开发 出 来 并 且 在 最 新 的 Logstash 
中 提供 ,那些 使 用 老 版 本 Logstash 的 用 户 是 否 能 使 用 最 新 的 插件 呢 ? 

答案 是 肯定 的 ,可 以 使 用 新 插件 。 如 果 揪 件 与 Logstash 的 旧版 本 插件 兼容 ,就 可 以 安 
装 该 插件 。 下 面 来 看 看 如 何 列 出 插件 ,如 何 安装 、 更 新 \ 移 除 Logstash 中 的 可 用 插件 。 


3.11 酝 件 的 命令 行 棵 作 


前 面 已 经 讨论 了 各 种 类 型 的 Logstash 插件 的 使 用 。 现 在 就 来 学 习 如 何 使 用 Logstash 
安装 文件 夹 bin 下 的 logstash-plugin 命令 行 ,这 是 用 基于 脚本 命令 的 方式 列表 、 安 装 、 更 新 、 
移 除 相 应 插件 的 方法 。 

插件 的 命令 行 操作 方式 的 命令 用 法 如 下 : 


bin/logstash-plugin [OPTIONS] SUBCOMMAND [ARG] 


证 全 六 
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上 述 命令 中 的 SUBCOMMAND 可 以 是 列表 list\ 安装 install、 移 除 remove、 更 新 
update\ 压 缩 pack .解压 unpack 以 及 生成 generate。 

其 中 ,列表 list 用 于 列 出 可 用 的 安装 插件 ,安装 install 用 于 安装 某 个 插件 , 移 除 remove 
用 于 移 除 某 个 插件 ,更 新 update 用 于 更 新 某 个 插件 ,压缩 pack 用 于 打包 某 个 已 经 安装 的 插 
件 ,解压 unpack 用 于 解压 某 个 已 经 打包 的 插件 。 


3.11.1 列 出 插件 列表 
使 用 如 下 的 命令 ,可 以 列 出 在 Logstash 中 可 用 的 插件 : 














bin/logstash-plugin list 
查询 有 关 list 的 各 种 可 用 方法 ,可 用 如 下 命令 : 
bin/logstash-plugin list --help 


它 会 显示 相关 的 操作 如 : -installed， 一 verbose， 一 group NAME。 
如 果 给 出 类 似 下 面 这 种 已 经 安装 的 插件 的 名 字 ( 例 如 下 面 的 kafka) ,可 列 出 相应 插件 
的 信息 : 


bin/logstash-plugin list kafka 

采用 如 下 命令 ,可 以 显示 相应 的 已 经 安装 插件 的 版 本 等 信息 
bin/logstash-plugin list --verbose logstash-input-kafaka 

采用 如 下 命令 ,能 够 以 分 组 方式 (Input、Filter、Codec) 显 示 已 经 安装 的 插件 。 


bin/lostash-plugin list --group filter 


3.11.2 安装 插件 
查看 有 关 安 装 插件 install 中 的 各 种 操作 ,可 通过 如 下 命令 得 到 : 
bin/logstash-plugin install - -help 


上 述 命 令 执 行 后 ,会 显示 一 些 操 作 项 , 如 : -version, 一 [ no-| verify,， 一 preserve， 
一 development 以 及 一 local。 
如 果 需 要 安装 插件 ,可 使 用 如 下 命令 : 


bin/logstash-plugin install logstash- filter-dissect 





全 需要 拥有 根 (root) 的 相关 权限 来 执行 针对 插件 的 操作 。 
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如 果 要 安装 某 个 特定 版 本 的 插件 ,可 使 用 如 下 方式 完成 : 
bin/logstash-plugin install - -version 1.0.8 logstash- filter-dissect 
如 果 安 装 插件 前 需要 验证 相关 插件 的 有 效 性 ,可 以 使 用 如 下 方式 完成 : 
bin/logstash-plugin install - -verity logstash- filter-dissect 

如 果 安 装 插件 前 无 须 验证 相关 插件 的 有 效 性 ,可 以 使 用 如 下 方式 完成 : 
bin/logstash-plugin install - -no-versity logstash- dilter-dissect 
如 果 在 本 地 安装 插件 ,可 以 使 用 如 下 方式 完成 : 


bin/logstash-plugin install --local logstash- filter-dissect 


3.11.3 移 除 插件 
可 以 使 用 如 下 帮助 命令 ,查阅 可 用 的 各 种 移 除 插件 的 方法 。 
bin/logstash-plugin remove - -helP 


它 不 包含 任何 可 选用 的 属性 操作 。 
如 果 要 印 载 一 个 插件 ,可 以 使 用 如 下 命令 方式 : 


bin/logstash-plugin remove logstash- filter-dissect 


3.11.4 更 新 插件 
可 以 使 用 如 下 帮助 命令 查阅 可 用 的 各 种 更 新 插件 的 方法 。 
bin/logstash-plugin update - -help 


显示 可 用 的 操作 参数 有 : 一 Lno-] verrify 和 -local。 
如 果 需 要 更 新 所 有 已 经 安装 的 插件 ,可 以 使 用 如 下 命令 方式 : 


bin/logstash-plugin update 
如 果 需 要 更 新 某 个 特定 的 安装 插件 ,可 以 使 用 如 下 命令 方式 : 
bin/logstash-plugin update logstash- filter-dissect 

如 果 需 要 在 更 新 前 验证 该 插件 的 有 效 性 ,可 以 使 用 如 下 命令 方式 : 
bin/logstash-plugin update - -verify logstash- filter-dissect 


如 果 在 更 新 前 不 需要 验证 该 插件 的 有 效 性 :可 以 使 用 如 下 命令 方式 : 
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bin/logstash-plugin update - -no-verify logstash- filter-dissect 
如 果 要 在 本 地 更 新 插件 ,可 以 使 用 如 下 命令 : 


bin/logstash-plugin update --local logstash-filter-dissect 


3.11.5 压缩 插件 
可 以 使 用 如 下 帮助 命令 来 查阅 可 用 的 各 种 压缩 插件 的 方法 。 
bin/logstash-plugin pack --helP 


显示 的 可 用 参数 有 : --tgz, --zip, --[no-] clean 和 一 overwrite。 
如 果 需 要 以 GZipped TAR 格式 压缩 一 个 插件 ,可 以 使 用 如 下 的 命令 方式 ， 


bin/logstash-plugin pack --tgz 

如 果 需 要 以 ZIP 格式 压缩 一 个 插件 ,可 以 使 用 如 下 的 命令 方式 : 
bin/logstash-plugin pack --zip 

如 果 需 要 删除 生成 的 一 组 插件 ,可 以 使 用 如 下 的 命令 方式 : 
bin/logstash-plugin pack -- clean 

反之 ,如 果 不 删除 , 则 可 以 使 用 如 下 的 命令 方式 : 
bin/logstash-plugin pack --no-clean 


如 果 需 要 覆盖 以 前 生成 的 压缩 文件 ,可 以 使 用 如 下 的 命令 方式 : 





bin/logstash-plugin pack --overwrite 


3.11.6 解压 插件 
可 以 使 用 如 下 帮助 命令 ,来 查阅 各 种 可 用 的 解压 缩 插件 的 方法 。 
bin/logstash-plugin unpack - -help 


显示 的 可 用 参数 有 : --tgz, --zip。 
如 果 需 要 以 GZipped TAR 格式 解压 缩 一 个 插件 ,可 以 使 用 如 下 的 命令 方式 : 


bin/logstash-plugin unpack - -tgz filename 
如 果 需 要 以 ZIP 格式 解压 缩 插件 ,可 以 使 用 如 下 的 命令 方式 : 


bin/logstash-plugin unpack - -zip filename 
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下 面 , 我 们 来 看 看 更 多 的 以 命令 行 操作 Logstash 的 方式 。 
3.12 ”Logstash 的 命令 行 可 作 


可 以 用 多 种 不 同 的 命令 行 操作 方式 来 使 用 Logstash。 如 果 要 查询 更 多 的 基于 命令 行 
的 操作 ,可 以 使 用 如 下 帮助 命令 : 

bin/logstash - -help 

上 述 帮 助 命令 运行 后 ,会 列 出 各 种 可 用 的 操作 。 我 们 会 在 下 面 继续 介绍 。 

如 果 需 要 指定 Logstash 实例 的 名 称 ,可 以 使 用 如 下 命令 方式 : 

bin/logstash - -node .name NODENAME 


如 果 基于 一 个 配置 文件 (或 者 指定 配置 文件 的 目录 中 的 配置 信息 ) 来 使 用 Logstash ,可 
以 使 用 如 下 的 命令 方式 : 


bin/logstash -上 CONFIGPATH 
或 者 ,使 用 如 下 的 命令 方式 : 
bin/logstash - -path.config CONFIGPATH 


如 果 直 接 在 命令 行 中 指定 一 个 特定 的 配置 文件 来 使 用 Logstash, 可 使 用 如 下 命令 
方式 : 

bin/logstash -e "input {stdin {type =>stdin} }" 

如 果 指 定 以 并 行 方式 运行 的 进程 的 数目 ,可 以 使 用 如 下 命令 方式 : 

bin/logstash -w 12 
或 者 

bin/logstash - -pipeline .workers 12 

上 述 默 认 的 进程 数值 是 8。 

为 了 指定 运行 进程 的 最 大 数目 来 执行 过 滤 Filter 和 输出 Output 的 插件 连接 ,可 以 使 用 
如 下 的 命令 方式 : 


bin/logstash -b 50 
或 者 


bin/logstash - -pipeline.batch.size 50 
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上 述 命 令 方式 的 默认 数值 是 125。 
为 了 在 检查 新 事件 前 设 定 等 待 时 间 (ms) ,可 使 用 如 下 命令 方式 : 





bin/logstash -u 10 
或 者 

bin/logstash - -pipeline.batch.delay 10 

上 述 应 用 场景 的 默认 值 是 250ms。 

如 果 需 要 让 Logstash 强行 退出 关闭 (即使 它 仍 在 内 存 中 有 驻 留 事件 ), 可 以 使 用 如 下 
命令 : 

bin/logstash - -Pipeline.unsafe_shutdown 

若 需 要 指定 Logstash 存储 数据 的 目录 ,可 以 使 用 如 下 命令 : 

bin/logstash - -path.data PATH 


上 述 命令 方式 的 默认 值 是 : $ LS_HOME/data。 
如 果 要 设 定 路 径 以 便 找到 Logstash 自 定义 插件 ,可 以 使 用 如 下 命令 : 


bin/logstash -p PATH 
或 者 


bin/logstash - -path.plugins PATH 


个 PATH 定义 为 PATH/logstash/TYPE/NAME. rb, 其 中 TYPE 是 组 名 (Input、 


Output Filter\Codec) ,NAME 指 插件 的 名 字 。 





为 了 在 目录 中 写 入 logs 运行 Logstash, 可 以 使 用 如 下 命令 : 
bin/logstash -1 PATH 

或 者 
bin/logstash - -Path.1ogs PATH 
为 了 设 定 发 送 到 Logstash 的 日 志 的 级 别 . 可 以 使 用 如 下 命令 : 
bin/logstash - -log.level LEVEL 


可 用 的 LEVEL 取 值 如 下 : fatal、warn、error、debug、info( 默 认 值 ) 和 trace。 
采用 如 下 命令 方式 ,可 以 输出 编译 好 的 config ruby 代码 (debug log)。 
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bin/logstash - -config.debug 





@@ 为 了 能 使 用 --config. debug, 必 须 应 用 -log. level 二 debug 这 一 配置 。 











使 用 如 下 命令 ,可 以 显示 Logstash 的 当前 版 本 : 
bin/logstash -V 
或 者 
bin/logstash - -version 
采用 如 下 的 命令 行 方式 ,可 以 验证 Logstash 配置 文件 是 否 正确 : 
bin/logstash -f file.conf -r 
或 者 


bin/logstash -f£ file.conf --config.reload.automatic 


人 @ Grok 模式 未 被 验证 。 只 验证 句法 是 否 正确 。 





下 面 的 命令 行 方式 ,对 Logstash 配置 文件 的 auto-reload 有 效 (enable): 
bin/logstash -f£ file.conf -r 
或 者 
bin/logstash -£ file.conf --config.reload.automatic 


上 述 默 认 值 是 “false”。 

为 了 检测 Logstash 配置 文件 是 否 更 新 ,采用 如 下 的 命令 行 方 式 ,可 以 设 定 重 新 载 入 的 
时 间 间 隔 ( 秒 )。 

bin/logstash -上 file.conf --config.reload.interval 5 

上 述 默 认 值 是 3s。 

采用 如 下 命令 行 ,可 以 指定 包含 Logstash 设置 文件 的 目录 位 置 : 

bin/logstash - -Path.settings SETTINGS_DIR 


上 述 默 认 值 是 $LS_HOME/config。 
3.13 ”使 用 Logstash 的 路 技巧 


下 面 列 出 和 使 用 Logstash 有 关 的 一 组 小 技巧 。 
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3.13.1 引用 字段 及 其 值 


在 Logstash 配置 文件 中 ,可 以 通过 名 字 指 定 一 个 字段 ,随后 可 以 从 一 个 字段 向 另 一 个 
字段 中 传送 一 个 值 。 如 果 想 设 定 top-level 字段 ,可 以 直接 使 用 字段 field 的 名 称 。 如 果 想 设 
定 nested field 字段 , 可 使 用 [top-level field] [nested field] 语 法 形式 。 对 字段 而 言 ， 
Logstash 使 用 sprintf 格式 对 有 关 字 段 值 进行 操作 。 

sprintf 格式 如 下 : 


$${ [top-level field] [nested field] *…} 
例如 : 


output { 
elasticsearch { 
document type =>"%{@version}" 
index =>"logstash %{type} %{+YYYY-MM-dd-H}" 





人 @ 未 引 index 名 不 能 含有 如 下 特殊 字符 :\、/、x 、?、“, 二 .二 、|、,。 另 外 ,索引 
index 名 必须 小 写 。 





3.13.2 添加 自 定义 的 grok 模式 


如 前 所 述 ,我们 能 够 自己 生成 grok 模式 。 这 些 生成 的 grok 模式 能 直接 使 用 。 我 们 能 
够 使 用 、 修 改 已 经 存在 了 的 定义 好 的 grok 模式 ,甚至 也 可 以 通过 正则 表达 式 来 自 定义 新 的 
grok 模式 。 

基本 的 grok 模式 的 语法 如 下 所 示 : 

委 {SYNTRAX: SEMANTIC} 

如 果 需 要 使 用 正则 表达 式 来 定义 grok 文件 的 模式 ,可 以 使 用 如 下 方式 : 

PATTERNNAME Regular -Expression Syntax 

例如 : 

ALPHANUMERIC ([a-zA-20-9-]+) 


如 果 需 要 使 用 一 个 已 经 存在 的 grok 模式 来 定义 另 一 个 grok 文件 的 模式 ,可 以 使 用 如 
下 方式 ; 
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PATTERNNAME $$ {EXISTING GROK- PATTERN} 
例如 : 
RECORDTIME % {TIME} 


在 本 章 3. 14 节 “ 用 于 解析 日 志 的 Logstash 配置 "中 ,将 会 学 习 更 多 个 性 化 生成 grok 模 


式 的 方法 。 
3.13.3 ”Logstash 不 显示 任何 输出 信息 


这 是 一 个 运行 Logstash 时 经 常会 遇 到 的 问题 。 在 这 种 情况 下 ,Logstash 运行 配置 文 


件 , 但 在 标准 输出 设备 上 无 法 看 到 任何 输出 。 这 个 问题 会 在 一 些 场合 中 出 现 。 我 们 将 在 如 
下 内 容 中 进行 说 明 。 


3.13.3.1 一 个 输入 文件 已 经 被 完全 读 取 
在 这 种 情况 下 ,可 使 用 Input 插件 作为 一 个 文件 ,指定 一 个 或 多 个 文件 读 取 数 据 。 输 入 


文件 使 用 生成 sincedb 文件 的 机 制 。 这 样 ,能 够 帮助 Logstash 知道 有 多 少 输入 文件 已 经 被 
处 理 和 解析 。 在 这 种 情形 下 ,如 果 输 入 文件 已 经 被 完全 读 取 了 ,那么 在 Input 插件 中 设置 同 
样 的 输入 文件 之 后 ,再 次 运行 Logstash, 将 不 会 有 任何 输出 显示 。 


让 我 们 来 看 看 sincedb 文件 的 内 容 : 
948594 0 2049 47484 


上 述 各 列 分 别 是 指 : inode(UNIX) 或 者 标识 符 (Windows) 、 最 大 设备 编号 ,最 小 设备 编 


号 、 字 节 偏 移 ,其 中 : 


上 述 提供 的 inode 列 以 及 最 大 和 最 小 设备 编号 ,有 助 于 了 解 基 于 file 输入 插件 读 取 的 


文件 。 字 节 偏 移 决 定 了 在 文件 中 读 取 的 字 节 数量 。 


下 面 是 一 组 针对 上 述 问 题 的 解决 方案 : 

。 方案 1: 删除 存储 在 $ HOME/. sincedb_ x 的 sincedb 文件 ,再 次 基于 配置 文件 运行 
Logstash。 此 时 ,将 会 显示 输出 信息 。 

。 方案 2: 使 用 已 有 设置 或 者 sincedb_path 的 参数 , 按 如 下 方法 来 指定 其 值 : 


sincedb path =>"/dev/null" 


这 将 会 使 Logstash 认为 , 它 从 未 解析 过 输入 文件 。 





全 不 推荐 使 用 方案 2。 因 为 当 Logstash 重新 启动 时 ,完整 的 文件 将 会 被 从 头 解析 ， 
这 将 导致 重复 数据 的 出 现 。 
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3.13.3.2 一 个 输入 文件 已 有 一 天 未 更 改 


这 种 情况 下 ,使 用 Input 插件 作为 一 个 文件 ,指定 一 个 文件 来 作为 输入 源 。 当 输入 文 
es 86400 秒 (1 天 ) 没 有 更 改 时 ,Logstash 仍 伏 会 运行 ,但 不 会 再 产生 任何 输出 。 
针对 这 种 情况 ,有 如 下 几 个 解决 方案 : 
。 方案 1: 修改 文件 ,以 便 它 能 被 Logstash 读 取 到 。 
。 方案 2: 使 用 touch 命令 (UNIX) 修 改 时 间 戳 (timestamp)。 该 方案 只 有 在 sincedb 
文件 的 路 径 是 /dev/null” 时 , 才 有 效 。 





3.14 用 于 解析 日 志 的 Logstash 配置 


在 本 节 中 ,我 们 将 学 习 如 何 使 用 Logstash 来 解析 含有 不 同类 型 日 志 的 文件 ,会 根据 需 
求 使 用 生成 的 定制 好 的 grok 模式 来 解析 数据 。 

先 来 看 看 数据 。 

日 志文 件 含有 数 以 百 万 计 的 涉及 Tomcat 和 Catalina 的 日 志 log。 日 志文 件 也 包含 应 
用 程序 的 异常 信息 exception ,错误 信息 error、 栈 追踪 信息 stack trace 等 。 日 志文 件 含有 各 
种 各 样 级 别 和 日 志 有 关 的 事件 (如 INFO WARN ERROR 、DEBUG 以 及 FATAL 等 ) 。 


3.14.1 Catalina 日 志 示 例 
首先 ,看 看 如 下 的 日 志 信 息 : 


Mar 10, 2016 10:04:37 PM org.apache.catalina.startup.Catalina load 
INFO: Initialization processed in 433 ms 
Mar 10, 2016 10:04:37 PM org.apache.catalina.core.StandardService 


startIinternal INFO: Starting service Catalina 


3.14.2 ” Tomcat 日志 示例 


下 面 是 Tomcat 日 志文 件 示 例 : 


2016-03-10 22:04:40,892 INFO localhost- startStop-1 
support .AnnotationConfigWebApplicationContext:208 -Registering annotated 
classes: [class matrix.api.config.RESTConfig] 

2016- 03-10 22:05:07,248 ERROR http-bio-8080-exec-1 
handler .ExceptionHandlerAdvice:57 -We have encountered an internal error. org. 
springframework.dao.EmptyResultDataAccessException: Incorrect result 


size: expected 1, actual 0 
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at org.springframework.dao.support.DataAccessUtils (Support.java:71) 
at org.springframework.jdbc.core.Jdbc.queryForObject (Jdbc .java:489) 
at org.impl.HealthCheckDaoImpl .getResult (HealthCheckDaoImp]l .java: 30)) 


at org.springframework.web.Handler.invokeForRequest (Handler .java:132) 


下 面 生 成 个 性 化 的 grok 模式 ,以 便 匹 配 Catalina 和 Tomcat 日 志 数 据 。 将 生成 一 个 名 
为 grok-pattern 的 文件 , 它 位 于 /usr/share/logstash/patterns 下 。 


3.14.3 基于 grok 模式 的 Catalina 日 志 
让 我 们 来 看 看 预定 义 的 、 定 制 的 .用 于 解析 Catalina 日 志 的 grok 模式 (pattern): 


MONTH 

\b( ?:Jan(? :uary) ?| Feb( ? :ruary)? IMar(? :ch) ? |Apr( ? :il1) ? IMaylJun( ?:e)? |Jul 
(?:y)? IAug ( ? :ust)? | Sep (? : tember)? |Oct (? :ober)? |Nov( ?:ember)? |Dec( ?: 
ember) ?)\b MONTHDAY (? :(?:0[1-9])1(?:[12][0-9])1(?:3[01])1[1-9])YERAR (?>\d\qd) 
{1,2} HOUR (? :2[0123]1[01]? [0- 9] )MINUTE (?:[0-5][0-9])SECOND (?:(?:[0-5][0-9]1 
60) (? :[:.,] [0-9]+) ?) 

DURATION (AM|PM) 

CATALINA DATESTAMP % {MONTH} % {MONTHDAY}, $ {YEAR} 

$$ {HOUR}: ?${MINUTE} ( ?%{SECOND}) %$ {DURATION} 

JAVACLASS (?:[a-zA-20-9-]+.)+ [A-2Za-z0-9$ ]+ 

JAVALOGMESSAGE (.*) 

LOGLEVEL ([A-a]lert|ALERT|[TIt]race|lTRACE|[DId]ebug|DEBUG| [NIn]otice|NOTICE|[I 





li]nfolINFO| [WIw]jarn? (? :ing)? IWARN ? (? :ING)? | [Ele]rr? (? :or)? |ERR? (? :OR)? | [CcC| 
cj]rit? (? :ical)? | CRIT? (? :ICAL)? | [FIf]atal |FATAL| [S|s]evere|SEVERE |EMERG (? : 
ENCY) ? | [Ee]merg(? : ency) ?) CATALINALOGLEVEL % {CATALINA DATESTAMP:datestamp}\s 
XS {JAVACLASS: class} % { JAVALOGMESSAGE: loginfo} % { LOGLEVEL: level }: % 
{JAVALOGMESSAGE: logmessage} 


3.14.4 基于 grok 模式 的 Tomcat 日 志 示 例 
下 面 是 预定 义 的 ,定制 的 ,用 于 解析 Tomcat 日 志 的 grok 模式 : 


MONTHNUM (? :0? [1-9] | 1[0-2]) 

TOMCAT DATESTAMP $$ {YEAR}-% {MONTHNUM}- 

% {MONTHDAY} \s* % {HOUR}:? % {MINUTE} (? :: ?%{SECOND}) 

REQUEST(? : [a- zA-20- 9-]+-)+[A-2a-z0-9$ ]+LOGLINE (? :[a-zA-20-9-]+.)+(?:[a- 
ZzA-20-9-]+\:)+[A-2Za-z0-9$ ]+ 

TOMCATLOG % {TOMCAT DATESTAMP:datestamp}\s * ${LOGLEVEL:level} 

$$ {REQUEST:request} % {LOGLINE:line} -% {JAVALOGMESSAGE :logmessage} 


人 
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人 通常 Catalina 和 Tomcat 日 志 的 模式 是 在 grok_pattern 文件 中 被 一 次 性 定义 的 ， 
因为 该 文件 对 于 解析 这 两 种 模式 是 通用 的 。 











3.14.5 Logstash 配置 文件 
下 面 列 出 将 要 用 到 的 Logstash 配置 文件 。 


input { 
file { 
path =>"/usr/share/tomcat/logs/catalina.out" 
type =>"tomcat" 
start position =>"beginning" 
codec =>multiline { 
patterns dir =>"/usr/share/logstash/patterns" 
pattern => 
"(^s {TOMCAT DATESTAMP} | ^% {CATALINA DATESTAMP})" 
negate =>true 
what =>"previous" 
} 
} 
} 
filter { 
mutate { 
gsub =>['message', "n", " "] 
gsub =>['message', "t", " "] 
} 
grok { 


patterns dir =>"/usr/share/logstash/patterns" 

match =>[ "message", "% {TOMCATLOG}","message", 
"$$ {CATALINALOGLEVEL)}"] 
} 
date { 

match =>[ "timestamp", "yyyy-MM-dd HH:mm:ss,SSS","MMM dd, 
yyyy HH:mm:ss a"] 

} 

if " grokparsefailure" in [tags] { 


drop {} 


output 是 
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elasticsearch { 
hosts =>"localhost:9200" 
index =>"logs" 
document type =>"logs" 

} 

stdout { codec =>rubydebug } 

if [level] =="ERROR" { 

email { 
address =>"smtp.gmail .com" 
port =>"587" 
username =>"gupta.yuvraj" 
password =>"password123" 
use tls =>"true" 
from=>"<gupta.yuvraj@gmail.com>" 
subject =>"Error status" 
to=>"<kravi.gupta@ gmail.com>" 
htmlbody =>"<h2>% {request}</h2><br/><br/><h3>Full 
Event</h3><br/><br/><div 


align='center'>% {message}</div>" 





作 前 面 提 到 的 grok 模式 以 及 Logstash 配置 文件 均 位 于 : https://github. com/ 


kravigupta/mastering-elastic-stack-code-files/tree/5. 1. 1/Chapter03 。 





在 前 面 讲述 的 配置 文件 中 ,已 经 使 用 了 Input 插件 作为 文件 , 设 定 了 文件 名 并 且 给 定 了 


用 于 解析 数据 的 type, 指 定 了 从 文件 开头 来 读 取 文 件 中 的 内 容 。 我 们 使 用 了 multiline 的 


Cod 


ec 编码 方式 ,因为 log 日 志 中 含有 异常 退出 (exception) 和 栈 跟 踪 信息 (stack trace) 。 除 


了 模式 pattern 的 目录 外 ,还 设 定 了 pattern 的 内 容 . 因 为 这 是 一 个 用 户 自 定义 的 模式 。 还 
应 注意 到 negate 设 为 true, 这 意味 着 它 将 会 在 日 志 中 搜索 模式 ,直到 找到 模式 , 它 被 认为 是 
单 事 件 的 一 部 分 。 其 中 的 what 参数 设置 为 previous(what 一 二 "previous") ,表示 匹配 的 





mu 





tiline 事件 将 会 是 前 面 事件 本 身 的 一 部 分 。 
在 filter 插件 中 ,使 用 了 多 类 型 的 过 滤 插 件 来 转换 数据 。 我 们 已 经 使 用 了 mutate Filter 插 


件 , 设 定 所 有 新 行 和 用 tab 隔 开 、 空 格 分 隔 的 日 志 。 使 用 grok 来 指明 它们 应 该 匹配 的 信息 字 
段 ,通过 合适 的 patterns_dir( 就 像 在 % {TOMCATLOG}) 和 %{CATALINALOGLEVEL } 中 的 那 


样 ) 


自 定义 grok 模式 。 另 外 .使 用 date Filter 告诉 Logstash 匹配 已 经 设 定 的 时 间 惟 


(timestamp) 字 段 , 在 该 过 滤器 的 最 后 , 设 定 不 包括 未 与 定义 的 grok 模式 匹配 的 任何 事件 


” 
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event。 

在 Output 插件 中 ,使 用 了 三 种 类 型 的 输出 , 即 : 输出 到 Elasticsearch、 输 出 到 标准 设备 
(stdout) ,输出 到 E-mail。 

在 基于 elasticsearch 插件 的 输出 中 , 设 定 了 Elasticsearch 节点 来 连接 相应 的 索引 index 
和 type 名称。 

在 基于 stdout 插件 的 输出 中 , 设 定 了 基于 Ruby Awesome Print Library 的 输出 日 志 

在 基于 E-mail 插件 的 输出 中 :使 用 了 相应 的 条 件 。 只 有 当 level 字段 值 等 于 ERROR 
时 ,该 插件 才 起 作用 。 我 们 也 设 定 了 邮件 服务 器 的 相关 信息 ,例如 address 和 port; 指 定 了 
username 和 password, 以便 能 基于 这 些 信息 连接 到 邮件 服务 器 。 设 置 了 use_tls 取 值 为 
true, 因 为 要 使 用 该 端口 来 连接 并 完成 加 密 通 信 。 我 们 也 注意 到 其 中 发 送 E-mail 的 ID、 接 
受 E-mail 的 ID .邮件 主题 ,发送 邮件 的 内 容 等 。 

定位 到 Logstash 目录 。 在 命令 行 中 运行 Logstash 配置 的 方法 如 下 : 


bin/logstash -上 log-config.conf 





全 如 果 E-mail 输出 插件 丢失 ,在 运行 配置 文件 时 ,就 有 可 能 会 遇 到 错误 。 可 以 使 用 
如 下 方式 (需要 先 定位 到 Logstash 文件 夹 下 ) 来 安装 E-mail 输出 插件 。bin/ 


logstash-plugin install logstash-email-output。 





如 果 通 过 使 用 Logstash 服务 来 运行 Logstash 配置 文件 , 则 需要 将 Logstash 的 配置 文 
件 放 到 如 下 目录 中 。 


/etc/logstash/conf.d/ 


系统 将 会 运行 放置 在 该 文件 夹 下 的 配置 文件 ,此 时 ,Logstash 以 服务 (service) 方 式 


人 运行 Logstash (5. x) ,将 会 在 9600 端口 打开 Logstash 终端 节点 ,提供 可 用 
的 API。 








学 习 了 上 述 内 容 , 可 能 会 对 Logstash 需要 打开 一 个 终端 节点 的 API 的 原因 感到 困惑 。 
我 们 将 在 后 续 内 容 中 进行 说 明 。 


3.15 ” 监 棕 系统 相应 状态 信息 的 API 


本 节 将 介绍 目前 在 Logstash 中 用 于 检索 运行 时 (Cruntime) 测 度 信息 的 各 种 API 的 
用 法 。 
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默认 情况 下 ,API 绑 定 在 127. 0. 0. 1 ,并 选 个 第 一 个 可 用 端口 范围 在 9600 一 9700 进行 
使 用 。 但 是 ,假设 这 里 有 另外 一 个 Logstash 在 9600 端口 运行 的 实例 ,就 需要 指定 一 个 新 的 
运行 Logstash 的 端口 了 。 此 时 ,可 使 用 如 下 的 命令 方式 来 完成 。 

bin/logstash - -http.port 9602 

使 用 如 下 的 命令 行 方式 ,可 得 到 有 关 的 基本 信息 (假设 Logstash 运行 在 9600 端口 )。 

Curl -X GET http://localhost:9600? pretty 

针对 上 述 命令 的 相应 返回 信息 如 下 所 示 : 


{ 
host™"s wwUDWaEWe 
wyGrStLORRS "5,1.1"s 
"http address": "127.0.0.1:9600" 
vid" : "6d32ec3e-700b- 48eb-bbc3- 6a48b2b00f9e", 
"name" : "ubuntu", 
"build date" : "2016-12-06T13:17:53+00:00", 
"build sha" : "aa36c4f4b702c6d379e5a97c22627933bca04f68", 


"build snapshot" : false 


3.15.1 节点 信息 API 


该 API 能 提供 相应 节点 的 信息 ,如 节点 的 操作 系统 层级 信息 、 节 点 JVM 信息 、 信 息 管 
道 pipeline 的 相关 信息 等 。 
使 用 如 下 的 命令 行 方 式 的 API, 可 得 到 所 有 节点 的 相关 信息 。 


curl -X GET http://localhost:9600/ node/?pretty 


3.15.1.1 节点 的 操作 系统 信息 


使 用 下 述 的 命令 行 命令 ,可 以 得 到 节点 的 操作 系统 级 的 信息 ,如 操作 系统 的 名 称 、 架 构 、 
版 本 以 及 可 用 的 进程 等 。 
curl -X GET http://localhost:9600/ node/os?pretty 


可 能 的 返回 信息 如 下 : 





{ 
oan 


"name": "Linux", 
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"arch" : "amd64", 
"version": "4.2.0-27-generic", 


"available processors": 4 


3.15.1.2 JVM 信息 


该 API 提供 节点 JVM 相关 信息 (如 进程 ID,、 版 本 、VM 信息 、 内 容 使 用 、 垃 圾 回收 )。 
curl -X GET http://localhost:9600/ node/jvm?pretty 


上 述 命 令 执行 后 可 能 的 返回 信息 如 下 : 


"jvm" :1{ 

"pid" : 6340, 

"version" : "1.8.0 74", 

"vm name" : "Java HotSpot (TM) 64-Bit Server VM", 

"vm version" : "1.8.0 74", 

"vm vendor" : "Oracle Corporation", 

"start time in millis" : 1481599754165, 

"mem" : { 
"heap init in bytes" : 268435456, 
"heap max_ in bytes" : 1038876672, 
"non heap init in bytes" : 2555904, 
"non heap max in bytes" :0 
}, 


"gc collectors" : [ "ParNew", "ConcurrentMarkSweep" ] 


3.15.1.3 节点 相应 的 数据 管道 信息 ? 


下 述 API 提供 节点 相应 的 数据 管道 (pipeline) 的 信息 ,如 workers 的 数量 、batch_size 
大 小 、batch_delay 的 设置 值 以 及 和 配置 有 关 的 信息 (如 config_reload_automatic 和 config_ 
reload_interval 的 取 值 等 ) 。 


curl -X GET http://localhost:9600/ node/pipeline?pretty 


四 译 者 注 : 原文 pipleine 有 误 ,此 处 应 为 pipeline。 
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返回 结果 如 下 : 


{ 
"pipeline" : { 
"workers" : 4, 
"batch size" : 125, 
"batch delay" : 5, 
" config reload automatic" : false, 


" config reload interval" :3 


3.15.2 插件 信息 API 


通过 使 用 下 面 介绍 的 API, 可 以 提供 所 有 安装 在 Logstash 中 的 插件 的 信息 。 使 用 方法 
如 下 所 示 : 


bin/logstash-plugin list --verbose 
运行 如 下 命令 ,可 以 得 到 所 有 插件 的 信息 。 
curl -X GET http://localhost:9600/ node/plugins?pretty 


执行 上 述 命令 后 可 能 的 返回 信息 如 下 所 示 : 


{ 

"total": 94 

"plugins": [ 

{ 
"name": "logstash- codec- cef", 
"version": "4.1.0" 

}, 

{ 
"name": "logstash-codec-collectd", 
”Versionn": "3.0.2" 

}, 

{ 


"name": "logstash-codec-dots", 


“version™": "3.0.2" 
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3.15.3 节点 状态 API 


使 用 本 节 介 绍 的 API, 可 以 提供 节点 运行 时 (runtime) 统 计 信息 ,如 节点 的 JVM 状态 、 
处 理 状态 、 内 容 使 用 状态 以 及 数据 管道 (pipeline) 的 状态 等 。 
使 用 如 下 的 命令 ,可 以 马上 得 到 所 有 节点 的 相关 信息 





curl -X GET http://localhost:9600/ node? status?pretty 


3.15.3.1 JVM 状态 

通过 使 用 下 述 命 令 , 可 以 得 到 有 关节 点 的 线程 .存储 空间 使 用 、 垃 圾 回收 等 信息 。 通 过 
使 用 如 下 命令 ,能 得 到 JVM 状态 。 

curl -X GET http://localhost:9600/ _node/status/jvm?pretty 

3.15.3.2 进程 状态 

使 用 如 下 API, 可 以 得 到 有 关 文件 的 描述 信息 ,存储 空间 信息 .CPU 信息 、 进 程 状态 信 


息 等 。 
Curl -X GET http://localhost:9600/ node/status/process?pretty 
3.15.3.3 数据 管道 pipeline 状态 


使 用 如 下 API, 可 以 得 到 数据 管道 事件 (pipeline event) ,插件 、 重 载 信 息 以 及 数据 管道 
(pipeline) 状 态 等 


curl -X GET http://localhost:9600/ node/status/pipeline? pretty 


3.15.4 Hot threads API 





使 用 本 节 介 绍 的 API, 可 以 列 出 所 有 和 运行 Logstash 有 关 的 hot thread 信息 。 这 里 的 
hot thread 是 指 那 些 使 用 了 较 高 CPU 资源 且 长 久 驻 留 的 Java 线程 。 
运行 如 下 命令 ,可 以 得 到 相关 的 hot thread 的 信息 。 


curl -XGEThttp://localhost:9600/ node/hot threads?pretty 


下 面 列 出 和 hot thread 相关 的 参数 。 
3.15.4.1 线程 
运行 下 述 的 命令 ,可 以 得 到 线程 thread 的 数量 。 默 认 情 况 下 ,线程 数量 设置 为 3, 也 可 
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以 使 用 如 下 命令 来 设置 线程 信息 。 


curl -X GET http://localhost:9600/ node/hot threads? threads=1 


3.15.4.2 Human 


如 果 human 的 值 设置 为 true, 则 会 以 纯 文本 而 非 JSON 格式 提供 相应 信息 。 默 认 状态 
下 ,该 值 设置 为 false。 可 以 使 用 如 下 命令 完成 相应 的 设置 。 


curl -X GET http://localhost:9600/ node/hot threads?human=true 


3.15.4.3 忽略 空闲 线程 : ignore_idle_ threads 参数 


如 果 ignore_idle_threads 参数 设置 为 true, 则 不 会 提供 空闲 进程 的 响应 。 默 认 状 态 下 ， 
其 值 为 true。 可 以 使 用 如 下 命令 来 忽略 空闲 进程 。 


Curl -X GET http://localhost:9600/_node/hot_ threads?ignore idle threads=false 


3.16 本章 狼 结 


本 章 介 绍 了 Logstash 的 用 法 .应 用 需求 及 其 特点 ,内 容 涉 及 基本 的 Logstash 数据 流 及 
Logstash 配置 架构 ;详细 介绍 了 各 种 插件 及 其 用 法 ,涉及 插件 的 命令 行 操作 及 其 用 法 ;还 介 
绍 了 一 些小 技巧 ,以 及 Tomcat 和 Catalina 日 志 的 应 用 实例 ;并 且 介 绍 了 如 何 生 成 .运行 一 
个 Logstash 配置 文件 来 执行 面 对 日 志 的 ETL 操作 。 在 本 章 最 后 ,还 介绍 了 面向 终端 用 户 
的 各 种 监控 API 的 用 法 ,以 便 能 得 到 Logstash 的 相关 信息 (有 时 ,Logstash 看 起 来 像 一 个 
充满 了 秘密 的 黑 盒子 ) 。 

下 一 章 将 会 讲述 Kibana 及 其 特点 ,并 介绍 Kibana 的 各 种 操作 界面 。 
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Kibana 界面 


学 习 Elasticsearch 和 Logstash 之 后 ,从 这 一 章 开 始 将 学 习 Kibana, 它 提供 了 为 收集 和 
存储 的 数据 执行 可 视 化 的 界面 。 在 这 一 章 中 ,将 主要 学 习 Kibana 的 界面 和 所 有 重要 的 细 
节 , 还 将 学 习 基于 Lucene 查询 的 搜索 .聚合 等 ,并 了 解 它 们 所 扮演 的 角色 。 

在 本 章 的 末尾 ,将 了 解 Kibana 的 新 特性 .各 种 选项 卡 及 其 组 件 的 功能 ,了 解 如 何 创建 可 
视 化 .面板 和 自 定义 Kibana 设置 ,也 将 学 习 如 何 将 数据 插入 到 Elasticsearch, 创 建 索引 模式 
并 可 视 化 数据 ,以 及 如 何 创 建 、. 共 享 和 嵌入 这 些 可 视 化 的 内 容 。 

本 章 主要 内 容 如 下 : 

。 Kibana 及 其 功能 ; 

。 探索 Discover 界面 ; 

。 查询 和 搜索 数据 ; 

。 探索 Visualize 界面 ; 

。 了 人 解 聚合 ; 

。 探索 Dashboard 界面 ; 

。 了解 Timelion 时 间 线 ; 

。 探索 开发 工具 Dev Tools; 

。 探索 Management 界面 ; 

。 综合 应 用 。 


4.1 Kibana 及 县 功能 


Kibana 是 可 视 化 工具 , 它 用 于 可 视 化 存储 在 Elasticsearch 中 的 数据 (结构 化 或 非 结 构 
化 数据 ) 。 作 为 Elasticsearch 的 顶层 工具 ,Kibana 用 于 搜索 、 查 看 、 分 析 数 据 , 它 还 可 以 对 存 
储 在 Elasticsearch 索引 中 的 数据 执行 可 视 化 。Kibana 和 Elasticsearch 都 是 Elastic 的 产 
品 , 二 者 都 使 用 了 Apache 许可 证 ,它们 基于 Apache Lucene. 使 用 了 Elasticsearch 强大 的 功 
能 (Lucene 查询 语法 .聚合 ) 。Kibana 提供 了 数据 分 析 的 功能 ,将 数据 可 视 化 为 不 同 的 图 表 
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形式 ,如 面积 图 .折线 图 .条 形 图 、 饼 图 、 瓦 片 地 图 .数值 统计 和 数据 表 , 并 创建 可 共享 或 做 入 
的 面板 。 面 板 提供 了 一 种 统一 的 方法 来 在 同一 位 置 陈列 所 有 可 视 化 的 内 容 。 所 有 的 搜索 、 
可 视 化 .面板 都 以 JSON 格式 存储 为 底层 JSON 文件 。 所 有 搜索 .可视化 .面板 的 JSON 文 
件 都 存储 在 Elasticsearch 中 。Elasticsearch 可 以 实时 处 理 和 分 析 大 量 的 数据 ,在 自动 更 新 
功能 的 帮助 下 ,可 视 化 /面板 将 产生 动态 变化 ,这 种 变化 提供 了 实时 的 画面 展示 。 通 过 基于 
浏览 器 的 界面 ,可 以 很 简单 地 搭建 和 使 用 Kibana。 

Kibana 需要 一 个 Web 服务 器 来 工作 (已 整合 在 Kibana4 及 后 续 版 本 中 ), 它 可 以 在 任 
意 支持 工业 标准 的 现代 浏览 器 中 无 缝 地 运行 ,对 工业 标准 的 支持 可 以 使 不 同 的 Web 浏览 器 
演 染 出 同样 的 内 容 。Elasticsearch 中 开放 了 基于 REST 的 API 接口 ,Kibana 则 使 用 这 种 接 
口 与 Elasticsearch 进行 交互 , Elasticsearch 提供 简单 的 HTTP 响应 来 请 求 和 接收 信息 。 
REST 是 一 种 无 状态 协议 , 它 使 用 HTTP 协议 来 完成 多 种 系统 之 间 的 交流 ,而 非 使 用 复杂 
的 CORBA .SOAP、WSDL 、RPC 等 方式 实现 。REST 使 用 HTTP 协议 ,并 提供 CRUD( 创 
建 . 读 取 、 更 新 和 删除 ) 操 作 。 

下 面 是 第 1 章 Elastic Stack 概述 中 的 图 ,这 张 图 展示 了 Elastic Stack 的 典型 高 层 架 构 。 
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从 该 图 中 可 以 观察 到 ,Kibana 对 用 户 来 说 是 一 种 终端 。 无 论 通 过 Logstash 或 者 Beats 

收集 的 数据 ,还 是 储存 在 Elasticsearch 中 的 数据 ,都 可 以 通过 Kibana 的 界面 来 查看 和 分 析 。 

Kibana 的 界面 如 下 图 所 示 。 

这 个 界面 相 较 于 早期 版 本 的 Kibana 来 说 ,有 一 个 受 欢迎 的 改变 , 它 带 来 了 一 个 全 新 的 

用 户 界面 。 这 个 界面 已 经 按照 要 求 重新 设计 ,并 保持 了 简约 的 风格 。 可 以 通过 展开 / 折 释 左 
边 的 窗 格 来 展示 名 称 和 图 标 ,或 者 仅 展 示 各 个 选项 卡 的 图 标 。 这 个 界面 主要 由 左 侧 窗 格 中 
的 6 个 选项 卡 组 成 ,描述 如 下 : 

。 Discover( 查 询 ): 这 个 页 面 提供 了 数据 的 概述 ,比如 所 选 索引 的 名 称 ` 数 据 中 的 字段 
列表 和 存储 在 字段 中 的 文本 数据 。 它 提供 了 对 数据 的 搜索 .查询 .过滤 、 分 析 和 显示 
搜索 结果 等 功能 。 

。 Visualize( 可 视 化 ) : 这 个 页 面 提供 多 种 类 型 的 可 视 化 概览 ,也 提供 从 已 保存 的 或 新 
的 搜索 中 创建 可 视 化 的 若干 步骤 ,还 可 以 打开 已 保存 的 可 视 化 文件 。 它 也 提供 创 
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4.2 





Managemene | bana 
Index Patterns Saved Objects Advanced Settings 


Configure an index pattern 


Mn order to use Kibana you must configure at least one Index pattern_Index Patterns are used to dentrfy the Fiasticsearch Index to run search and 
analytics against. They are also used to configure fields 


index conrains tme-based events 
S Use event times to create index names DEFRECATEDI 
Index name or pattern 


mems allow you to defne dynamic indey names Using * a 3 widcard Example: Iogstash- 











建 , 查 看 、 更 新 和 删除 自 定义 可 视 化 内 容 的 功能 。 

Dashboard( 面 板 ): 这 里 为 所 有 已 保存 的 可 视 化 和 搜索 提供 了 一 个 单独 的 视图 页 面 。 
它 提供 了 对 可 视 化 内 容 的 编辑 移动 .调整 大 小 和 删除 等 功能 。 它 通过 组 合 多 个 可 
视 化 并 且 同 时 显示 ,来 使 你 更 清楚 地 了 解数 据 。 

Timelion( 时 间 线 ): 这 个 页 面 是 最 新 添加 到 Kibana 界面 中 的 , 它 用 于 可 视 化 时 间 序 
列 。 受 到 “时 间 轴 ”这 个 词 的 启发 , 它 可 以 将 多 种 数据 来 源 关 联 到 一 个 基于 时 间 序 列 
实现 可 视 化 。 它 使 用 了 简单 易 用 的 表达 式 来 访问 数据 ,这 将 构成 最 初 的 学 习 曲 线 。 
它 诞生 于 Elastic 实验 室 的 研究 项 目 ,这 些 项 目 专注 于 研发 未 来 的 产品 。 

Dev Tools( 开 发 工具 ) : 作为 Kibana 的 一 部 分 ,开发 工具 由 一 个 控制 台 组 成 。 控 制 
台 提 供 了 简单 上 且 直观 的 用 户 界面 ,通过 使 用 Web 浏览 器 与 Elasticsearch 的 REST 
API 实现 交互 。 开 发 工具 由 分 析 器 Profiler 组 成 ,配置 文件 可 以 作为 X-Pack 插件 
的 一 部 分 来 使 用 。 该 组 件 将 在 第 9 章 中 的 了 解 Profiler 一 节 中 进行 介绍 。 
Management( 管 理 ) : 这 个 页 面 提 供 了 Kibana 中 使 用 的 所 有 的 配置 的 概述 。 它 用 于 
配置 单个 或 多 个 新 的 索引 模式 ,修改 现 有 的 配置 参数 ,导出 和 导入 已 保存 的 对 象 ( 搜 
索 结果 、 可 视 化 和 面板 ), 显 示 Kibana 版 本 的 详细 信息 ,创建 /提交 Kibana 中 的 
内 容 。 


探索 Discover 界面 


通过 对 索引 文档 的 分 析 ,Discover( 查 询 ) 页 面 可 以 帮助 你 轻松 地 处 理 数 据 。 它 支持 对 


数据 执行 不 同类 型 的 搜索 ,有 助 于 理解 数据 的 含义 ,以 及 使 用 数据 来 创建 可 视 化 的 统计 图 
表 。 查 询 界面 还 提供 了 在 不 离开 查询 页 面 的 条 件 下 ,通过 切换 索引 模式 来 选择 不 同 索 引 名 
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称 的 功能 ,用 户 可 以 简单 地 执行 搜索 查询 ,使 用 过 滤器 并 且 查 看 查询 和 过 滤 匹 配 的 文档 。 
Discover 界面 如 下 图 所 示 : 


E 索引 名 称 工具 栏 时 间 过 滤器 
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查询 页 面 中 的 组 件 如 下 : 

。 Time Filter( 时 间 过 滤器 ) : 过 滤 特 定时 间 范 围 内 的 数据 。 

Search Box( 搜 索 框 ): 用 于 搜索 和 查询 数据 。 

Toolbar( 工 具 栏 ): 包含 新 建 搜索 .保存 搜索 .打开 已 保存 的 搜索 和 共享 的 选项 。 

。 Index Name( 索 引 名 称 ): 显示 所 选 索引 的 名 称 。 

。 Fields List( 字 段 列 表 ) : 显示 所 选 索引 中 的 所 有 字段 的 名 称 。 

。 Number Of Hits( 命 中 数量 ): 按 指定 的 时 间 间 隔 显示 文档 总 数 , 并 与 搜索 查询 匹配 
文档 结果 相对 应 。 

。 Histogram( 柱 状 图 ) : 显示 每 次 查询 结果 中 的 文档 数量 的 信息 。 

。 Documents Data( 文 档 数据 ) : 显示 包含 完整 数据 的 文档 。 





个 只 有 索引 中 包含 基于 时 间 的 事件 时 ,柱状 图 才 可 以 在 Discover 界面 中 显示 。 





下 面 分 别 介绍 每 个 组 件 。 


4.3 时间 过 泪 器 


时 间 过 滤器 (Time Filter) 可 以 根据 指定 的 时 间 范 围 来 钻 取 分 析 数 据 。 它 可 以 灵活 地 在 
任何 时 间 ,根据 需要 搜索 .查询 .过 滤 数据 ,并 且 能 非常 简单 地 分 析 特 定时 间 的 数据 ,或 者 根 
据 要 求 自 定义 时 间 周 期 。 同 时 ,在 时 间 过 滤器 面板 中 还 提供 了 各 种 设置 选项 。 
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人 @@ 默 认 情 况 下 .时间 过 滤 设 置 为 最 近 15 分 钟 ,这 意味 着 它 只 能 显示 前 15 分 钟 的 
数据 。 











单 击 时 间 过 滤器 后 ,可 以 找到 如 下 几 节 中 提 到 的 各 种 子 选 项 。 
4.3.1 快捷 时 间 过 滤器 


快捷 时 间 过 滤器 (Quick Time Tilter) 提 供 众多 的 时 间 范 围 选项 ,来 方便 快捷 地 查看 今 
天 、 本 周 、 今 年 上 周 、 前 一 个 月 .最近 30 分 钟 、 最 近 24 小 时 、 最 近 90 天 、 最 近 五 年 等 时 间 范 
围 内 的 数据 。 


4.3.2 相对 时 间 过 滤器 


相对 时 间 过 滤器 (Relative Time Filter) 用 于 根据 相对 时 间 对 数据 进行 过 滤 。 它 提供 了 
From 和 To 的 输入 框 ,依靠 它们 来 指定 从 现在 开始 的 相对 时 间 。 指 定 相 对 时 间 的 各 种 选项 
包括 秒 ` 分 钟 .小 时 .日 .星期 .月 和 年 。 

它 还 提供 了 一 个 小 的 复 选 框 ,用 来 将 相对 时 间 舍 人 到 与 其 最 接近 的 秒 、 分. 小时、 日. 星 
期 月 和 年 。 


4.3.3 绝对 时 间 过 滤器 


绝对 时 间 过 滤器 (Absolute Time Filter) 可 以 根据 时 间 和 日 期 的 格式 ,提供 来 自 From 
字段 的 起 始 日 期 /时 间 ,以 及 来 自 To 字段 时 间 范 围 的 结束 日 期 /时 间 。 时 间 和 日 期 的 格式 
是 YYYY-MM-DD HH: mm: ss.SSS ,解释 如 下 : 

。 YYYY 定义 年 份 为 四 位 数 ( 比 如 2017); 

。 MM 定义 月 份 为 两 位 数 (从 01 到 12); 

。 DD 定义 天 为 两 位 数 ( 从 01 到 31); 

。 HH 定义 小 时 为 两 位 数 (从 00 到 23); 

。 mm 定义 分 钟 为 两 位 数 ( 从 00 到 59); 
ss 定义 秒 为 两 位 数 (从 00 到 59); 
。 SSS 定义 毫秒 为 三 位 数 ( 从 000 到 999)。 


4.3.4 自动 刷新 


自动 刷新 (Autor-refresh) 用 于 在 一 定时 间 间 隔 后 ,自动 刷新 页 面 , 时 间 间 隔 可 以 为 5 秒 、 
1 分钟 .12 个 小 时 、1 天 等 。 它 主要 用 于 分 析 实时 流 数 据 ,因为 它 提供 了 最 新 的 数据 。 单 击 
时 间 过 滤器 后 ,自动 刷新 选项 会 出 现在 时 间 过 滤器 的 左边 。 
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时 间 过 滤器 的 设置 也 可 以 通过 单 击 柱状 图 中 的 任意 竖 条 来 进行 ,或 者 也 可 以 通过 单 击 
和 拖 动 鼠 标 指针 来 选择 时 间 范 围 。 














4.4” 恒 询 和 搜索 数据 


搜索 框 用 于 执行 匹配 文档 的 多 种 类 型 的 查询 。 搜 索 时 ,整个 查询 界面 及 相关 组 件 会 自 
动 执行 刷新 。Kibana 底层 使 用 了 强大 的 Lucene 查询 语法 来 查询 数据 。 因 为 Kibana 使 用 
了 Elasticsearch 的 底层 功能 ,所 以 其 Lucene 查询 提供 了 执行 多 种 搜索 的 能 力 , 这 些 搜索 包 
括 了 从 简单 到 复杂 查询 的 各 种 类 型 。 

Lucene 查询 中 提供 了 许多 搜索 数据 的 方法 ,让 我 们 逐个 来 看 一 下 。 


4.4.1 全 文 检索 


全 文 检索 (full-text search) 可 以 实现 在 一 篇 完整 的 文本 中 对 某 个 词 项 进行 搜索 。 各 种 
全 文 检索 方式 如 下 : 

。 搜索 单个 词 项 : 

例如 : 搜索 一 个 单独 的 词 项 ,在 搜索 栏 中 输入 kibana 。 

。 搜索 一 个 短语 (词组 ): 

例如 : 搜索 一 个 短语 ,在 搜索 栏 中 输入 elasticsearch kibana 。 





全 默认 情况 下 ,对 短语 的 搜索 使 用 布尔 表达 式 OR 来 执行 。 





。 搜索 一 个 确切 的 词 项 或 者 短语 : 

例如 : 搜索 一 个 确切 的 词 项 或 者 短语 ,需要 在 搜索 词 两 端 加 上 双 引 号 ,在 搜索 栏 中 输入 
elasticsearch kibana。 

。 在 特定 的 字段 中 搜索 词 项 : 

例如 : 搜索 一 个 字段 中 存在 的 词 项 ,需要 先 输入 字段 名 ,接着 输入 一 个 英文 冒号 ,后 面 
跟 一 个 词 项 ,例如 text: kibana。? 


4.4.2 范围 搜索 


执行 范围 搜索 (range search) ,通用 的 句法 是 "字段 名 称 : { 起 始 范围 TO 结束 范围 ;” 
或 者 是 “字段 名 称 : [起 始 范围 TO 结束 范围 ] 。TO 是 一 个 必须 使 用 的 关键 字 , 并 且 必 须 





Q@ 译 者 注 : 此 处 的 4 个 例子 ,在 原文 中 第 1.2 个 和 第 3.4 个 的 位 置 分 别 是 互 换 的 ,笔者 认为 这 里 存在 错误 ,在 本 书 
中 将 其 以 正确 的 位 置 放置 。 
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用 大 写字 母 来 指示 搜索 范围 : 
。 日 期 范围 搜索 : 例如 ,搜索 一 个 日 期 范围 ,输入 modified_date: [2016-04-01 TO 
2016-06-30] 。 
。 数字 范围 搜索 : 例如 ,搜索 一 个 数字 范围 ,输入 no_of tweets: [100 TO 1000]。 
。 字 符 串 范围 搜索 : 例如 ,搜索 文本 范围 .输入 text: [elasticsearch TO kibana]。 




















人 @ 方 括号 [提供 了 包含 边界 值 (inclusive) 的 范围 查询 。 也 就 是 说 ,搜索 结果 包含 指 
定 的 搜索 关键 字 。 花 括号 {) 提 供 了 不 包含 边界 值 (exclusive) 的 范围 查询 ,也 就 是 
说 ,查询 结果 不 包含 指定 的 搜索 关键 字 。 





4.4.3 布尔 搜索 


布尔 搜索 (boolean search) 是 提供 操作 符 的 搜索 类 型 ,如 下 所 示 : 

。 OR 操作 符 : 用 于 组 合 多 个 项 并 搜索 其 中 任意 项 。 
例如 : 输入 elasticsearch OR kibana, 其 中 OR 是 关键 字 。 
还 可 以 通过 输入 elasticsearch | | kibana 来 使 用 OR 操作 符 , 在 这 里 | | 是 关键 字 。 
同样 ,在 指定 多 个 单词 时 , OR 是 默认 的 操作 符 。 比 如 elasticsearch kibana 表示 
elasticsearch 或 kibana。 

。 AND 操作 符 : 用 于 组 合 多 个 项 并 搜索 所 有 项 。 
例如 : 输入 elasticsearch AND kibana ,其 中 AND 是 关键 字 。 
还 可 以 通过 输入 elasticsearch &&kibana 使 用 AND 操作 符 , 在 这 里 && 是 关 
键 字 。 

。 NOT 操作 符 : 用 于 在 搜索 结果 中 排除 NOT 后 面 的 项 。 
例如 : 输入 elasticsearch NOT kibana ,其 中 NOT 是 关键 字 。 


4.4.4 邻近 搜索 
邻近 搜索 (proximity search) 用 于 寻找 彼此 之 间 有 一 定 距离 的 项 , 它 使 用 波浪 线 ( 一 ) 作 


比如 ,输入 : "java elasticsearch" ~ 50 ,搜索 结果 将 提供 Java 和 Elasticsearch 之 间 最 大 
距离 为 50 字 的 文档 集 。 


4.4.5 通配符 搜索 


通配符 搜索 (wildcard search) 用 于 搜索 使 用 通配符 表达 式 的 匹配 模式 ,如 下 所 示 : 
。 单个 字符 搜索 : 用 于 在 通配符 搜索 中 蔡 换 单个 字符 。 
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例如 : 输入 ? ac, 会 得 到 mac、 sac 和 tac 这 样 的 搜索 结果 。 其 中 的 问号 (?) 是 关 
键 字 。 

。 多 个 字符 的 搜索 : 用 于 在 通配符 搜索 中 蔡 换 0 个 或 者 多 个 字符 。 
例如 : 输入 mx c, 会 得 到 mac、magic、macintosh、machine、music 这 样 的 搜索 结果 。 
其 中 的 星 号 (* ) 是 关键 字 。 


4.4.6 正则 表达 式 搜 索 


正则 表达 式 搜索 (regular expressions search) 用 于 查找 特定 模式 下 的 词 项 .短语 或 字 
段 。 它 使 用 斜 杠 (/) 和 方 括号 ([])9 来 指定 匹配 模式 。 

例如 ,输入 /mu[ dgm]/ AND /maLcdnp]j/ ,搜索 结果 中 的 文档 中 包含 两 种 词 项 的 结 
合 ,第 一 个 种 是 mud、mug 和 mum 这 样 的 词 项 ,第 二 种 是 mac、mad、man 和 map 这 样 的 
词 项 。 


4.4.7 分 组 


分 组 (grouping) 通 过 结合 多 个 词 项 .短语 和 不 同类 型 的 操作 符 来 创建 复杂 查询 。 
例如 : 输入 (elasticsearch OR kibana) AND(Logstash OR "Lucene query") 。 


4.5 字段 和 过 小 器 


字段 列表 用 于 提供 数据 中 使 用 的 所 有 字段 的 列 信息 。 它 有 助 于 分 析 数 据 集 , 并 且 可 以 
据 此 了 解 文档 中 都 有 哪些 字段 ,以 及 字段 中 包含 什么 类 型 的 信息 。 字 段 分 为 选 定 字 段 和 可 
用 字段 ,其 中 每 种 字段 名 称 按照 字母 顺序 排列 。 

它 还 提供 三 个 选项 ,包括 了 解 现 有 字段 中 的 数据 ,字段 中 的 前 五 个 值 以 及 对 包含 该 值 的 
文档 的 百分比 划分 。 这 些 信 息 可 以 通过 单 击 字 段 列 表 中 的 任意 字段 来 获取 。 同 样 , 也 可 以 
通过 单 击 Add 添加 字段 ,查看 所 有 文档 该 字段 的 数据 ,该 字段 位 于 字段 名 称 旁 边 。 此 时 程 
序 会 将 指定 的 字段 名 移动 到 已 选 定 的 字段 列表 中 ,从 而 提供 字段 当前 值 的 信息 。 


4.5.1 过 滤 字 段 


对 字段 的 过 滤 操 作 可 以 基于 字段 的 值 筛选 搜索 结果 来 完成 ,字段 搜索 可 以 使 用 的 字段 
的 过 滤 间 接 完成 。 两 种 过 滤器 形式 如 下 : 
。 正 过 滤器 (positive filter) : 用 加 号 (十 ) 表 示 , 它 可 以 展示 包含 字段 值 的 文档 。 


四 译 者 注 : 在 正则 表达 式 中 , 方 括 号 [内 部 的 内 容 虽 然 是 连续 的 字符 串 .但 其 中 各 个 字符 之 间 是 “或 "的 关系 。 
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。 负 过 滤器 Cnegative filter) : 用 负 号 (一 ) 表 示 , 它 可 以 排除 所 有 包含 字段 值 的 文档 。 

过 滤器 可 以 通过 以 下 两 种 方式 添加 : 

。 单 击 字 段 名 称 (位 于 字段 列表 下 ) 添 加 正 或 负 过 滤器 ,并 且 选 择 想 包含 或 者 排除 的 字 
段 值 。 

。 展开 数据 并 选择 要 包含 或 排除 文档 的 值 ,接着 单 击 文档 数据 中 的 字段 值 来 添加 正 或 

添加 过 滤器 后 ,下 面 介 绍 过 滤器 的 功能 。 


4.5.2 过 滤器 的 功能 


过 滤器 提供 了 一 个 简单 的 方式 ,来 根据 需要 过 滤 并 分 析 数 据 。 它 可 以 通过 应 用 不 同 的 
过 滤 方 式 来 获取 数据 ,如 下 所 示 : 

。 启用 过 滤器 (Enable filter) : 启动 过 滤器 并 且 显 示 匹 配 过 滤器 的 文档 。 它 类 似 于 正 
过 滤器 并 且 始 终 以 绿色 颜色 显示 。 

。 禁用 过 滤器 (Disable filter) : 禁用 过 滤器 ,直接 显示 所 有 文档 而 不 进行 过 滤 。 它 以 条 
纹 的 样式 显示 。 

。 锁定 过 滤器 (Pin filter) : 将 过 滤器 锁定 在 Kibana 页 面 上 。 例 如 ,在 Discover 页 面 使 
用 并 锁定 过 滤器 ,再 进入 Kibana 的 任何 其 他 任何 页 面 ,过 滤器 依然 会 出 现 。 

。 解锁 过 滤器 (Unpin filter) : 解锁 当前 正在 固定 的 过 滤器 。 解 锁 后 ,这 些 过 滤器 不 会 
在 Kibana 页 面 上 继续 存在 。 

。 反 转 过 滤器 (Invert filter) : 用 于 匹配 的 过 滤器 被 转换 后 ,会 显示 原本 不 被 匹配 的 文 
档 。 再 次 反 转 后 ,又 将 显示 匹配 的 文档 。 

。 过 滤器 状态 切换 (Toggle filter) : 切换 过 滤器 的 状态 。 启 用 中 的 过 滤器 以 绿色 表示 ， 
而 禁用 的 过 滤器 则 以 红色 表示 。 在 切换 过 滤器 的 状态 时 ,启用 中 的 过 滤器 会 被 切换 





到 禁用 状态 ,反之 亦 然 。 
。 删除 过 滤器 (Remove filter) : 将 过 滤器 彻底 删除 。 该 操作 执行 后 ,当前 已 添加 的 过 
滤器 将 被 删除 。 


。 自 定义 过 滤器 (Custom filter) : 对 添加 的 过 滤器 进行 自 定义 设置 ,其 中 提供 了 过 滤 
器 的 JSON 表示 ,可 供用 户 自 定义 。 它 还 可 以 为 重复 利用 的 过 滤器 提供 别名 。 
之 前 提 到 的 所 有 过 滤器 均 可 以 在 Kibana UI 中 查看 ,如 下 图 所 示 : 


Allfilters: Enable Disable Pin Unpin Invert Toggle Remove 
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4.6 查询 页 面 选 项 


在 工具 栏 和 搜索 框 中 还 有 许多 其 他 选项 ,例如 : 

新 建 搜索 (New Search) : 清除 已 有 的 搜索 查询 ,并 创建 一 个 新 的 搜索 查询 。 

保存 搜索 (Save Search) : 保存 搜索 结果 和 选 定 的 索引 。 

打开 已 保存 的 搜索 (Open Saved Search) : 加 载 已 保存 的 搜索 查询 和 指定 索引 。 它 用 

于 打开 已 保存 的 搜索 查询 和 索引 。 

分 享 (Share) : 通过 链接 来 分 享 搜索 查询 ,这 里 也 可 以 生成 短 链接 来 直接 分 享 搜索 结 

果 。 它 也 可 以 用 于 分 享 已 保存 的 搜索 结果 。 

。 向 文档 数据 中 添加 字段 (Adding fields to the Document Data): 将 鼠标 指针 其 停 在 字 
段 列表 上 方 时 ,对 应 位 置 的 字段 名 后 面 会 出 现 一 个 Add 按钮 , 单 击 该 按钮 可 以 轻松 
地 把 字段 添加 到 文档 数据 中 。 

。 在 文档 数据 中 删除 字段 (Removing fields from the Document Data): 将 鼠标 指针 悬 
停 在 要 删除 的 字段 列表 上 方 时 ,对 应 位 置 的 字段 名 后 面 会 出 现 一 个 Remove 按钮 , 单 
击 该 按钮 可 以 轻松 地 把 字段 从 文档 数据 中 删除 。 

。 查看 数据 (Viewing Data) : 单 击 位 于 文档 数据 起 始 列 左 侧 的 "按钮 ,可 以 轻松 查看 
文档 中 的 数据 。 

。 文档 排序 (Sorting Documents) : 单 击 列 名 称 旁 边 的 排序 按钮 ,可 以 对 文档 数据 中 已 
添加 的 字段 进行 排序 。 

。 移动 字段 (Moving fields) : 单 击 删 除 字段 标志 旁边 的 (二 二 ) 或 (二 一), 可 以 对 文档 
数据 中 已 添加 的 字段 重新 排序 ,并 可 将 其 移动 到 文档 数据 的 左 侧 或 右 侧 。 


4.7 探索 Visualize 界面 


可 视 化 是 Kibana 的 核心 ,也 是 创建 Kibana 的 重要 原因 之 一 : 它 的 出 现 为 用 户 提供 了 可 
视 化 大 量 数据 的 能 力 。 随 着 Elasticsearch 和 Logstash 的 日 益 普 及 .如 果 对 Elasticsearch 中 
存储 的 数据 缺少 直接 进行 可 视 化 的 能 力 ,就 会 导致 用 户 不 能 理解 数据 中 所 包含 的 信息 。 
Kibana 的 出 现 ,解决 了 这 个 问题 ,并 且 提 供 了 简单 旦 直观 的 界面 。 它 克服 了 近乎 实时 的 情 
况 下 可 视 化 大 量 数据 的 挑战 ,其 核心 组 件 使 Kibana 成 为 一 款 功能 丰富 的 开源 软件 。 

可 视 化 页 面 有 助 于 对 Elasticsearch 中 存储 的 所 有 数据 实现 可 视 化 。 使 用 Discover 界面 
了 解数 据 之 后 ,可 视 化 页 面 能 轻松 创建 可 视 化 统计 图 表 。 可 视 化 有 助 于 理解 数据 ,而 不 是 浏 
览 大 量 可 能 没有 任何 意义 的 数据 。 可 视 化 页 面 提供 了 创建 查看 \ 修 改 和 删除 自 定 义 可 视 化 
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内 容 的 功能 。 
可 视 化 页 面 通常 如 下 图 所 示 : 


区 





Visualze / step / 1 
Create New Visualization Or, Open a Saved Visualization 
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首次 使 用 可 视 化 界面 时 会 有 些 棘手 ,因为 可 视 化 的 设计 需要 如 下 四 个 步骤 : 

(1) 选择 可 视 化 类 型 ,创建 可 视 化 统计 图 表 ; 

(2) 选择 索引 的 名 称 ; 

(3) 选择 搜索 数据 源 ; 

(4) 可 视 化 画布 。 

步骤 (1)、(2)、(3) 都 非常 简单 ,这 三 个 步骤 分 别提 供 了 对 应 的 选项 ,可 以 选择 可 视 化 类 
型 ,选择 索引 ,以 及 决定 是 否 使 用 已 保存 的 或 新 的 搜索 数据 源 。 步 又 4 打开 了 一 个 新 的 界 
面 , 用 户 对 于 这 个 界面 最 初 可 能 较为 陌生 。 在 创建 、 编 辑 .配置 和 删除 可 视 化 内 容 方面 ,可 视 
化 画布 都 是 核心 部 分 。 可 视 化 画布 的 界面 如 下 图 所 示 : 
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全 默认 情况 下 ,时 间 过 滤器 设置 为 最 近 15 分 钟 。 





可 视 化 画布 包括 三 个 主要 部 分 : 

。 工具 栏 ( 标 记 为 数字 1); 

。 聚合 设计 (标记 为 数字 2) ; 

。 预览 可 视 化 (标记 为 数字 3) 。 

在 了 解 创建 可 视 化 的 方法 前 , 先 来 了 解 Elasticsearch 聚合 的 底层 组 件 ,这 些 组 件 被 用 
于 创建 可 视 化 内 容 。 


4.7.1 了 解 聚合 


可 视 化 以 统计 图 表 和 地 图 等 表现 形式 ,利用 Elasticsearch 聚合 提供 简单 或 复杂 的 数据 
表示 。 聚 合 形成 了 在 Kibana 中 创建 可 视 化 的 引擎 ,并 且 它 遵循 Elasticsearch 中 的 聚合 好 
辑 。 聚 合 由 Elasticsearch 的 facet 模块 演化 而 来 , 它 只 负责 收集 数据 的 任务 ,支持 数据 的 快 
速 查询 和 简单 聚合 。 聚 合 主要 分 成 两 类 : bucket 聚合 和 metric 聚合 。 


4.7.1.1 bucket 聚 合 


bucket( 桶 ?聚合 可 以 根据 一 个 或 多 个 标准 在 不 同 的 bucket 中 分 配 不 同 的 文档 。 它 用 
于 各 种 文档 分 组 ,并 且 以 一 个 标准 进行 评估 ,来 决定 哪个 文件 匹配 哪个 bucket。 每 当 要 进 
行 聚合 时 ,所 有 的 文档 都 需要 通过 评估 找到 能 承载 自己 的 bucket, 所 以 直到 所 有 的 文档 都 
能 被 评估 ,上 述 过 程 才 能 执行 。 它 也 可 以 计算 bucket 中 的 文档 ,并 返回 每 个 bucket 中 存在 
的 文档 数量 。 

bucket 聚合 提供 了 灵活 性 , 它 可 以 与 metric 聚合 相 结合 ,也 可 以 创建 子 聚合 。 子 聚合 
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可 以 计算 根据 父 聚 合生 成 的 每 个 bucket 中 的 文档 。 同 样 ,不同 bucket 聚合 策略 是 不 同 的 ， 
可 使 用 单个 bucket 策略 ,可 使 用 多 bucket 策略 ,还 可 在 聚合 数据 时 动态 创建 bucket。 
bucket 代表 了 可 视 化 的 横 坐 标 。 

在 Kibana 中 不 同 的 bucket 聚合 方式 如 下 : 

。 Date Histogram( 日 期 柱状 图 ): 此 聚合 用 于 数据 类 型 为 日 期 的 字段 ,如 果 索 引 包 含 基 
于 时 间 的 事件 , 则 由 Kibana 自动 提取 。 它 需要 一 个 具有 日 期 类 型 的 字段 和 一 个 区 间 
参数 来 聚合 数据 。 它 将 符合 bucket 聚合 标准 的 文档 分 组 ,而 bucket 聚合 的 标准 由 区 
间 参 数 指定 。 可 用 的 区 间 参 数 有 自动 , 秒 ` 分 钟 .小 时 .日 . 周 . 月 .年 和 自 定 义 。 
比如 ,文档 包含 多 个 日 期 的 字段 。 如 果 指 定 日 期 类 型 字段 和 区 间 参 数 ,比如 按 月 选 
取 , 之 后 ,所 有 的 文档 都 会 按照 月 进行 分 组 ,并 且 包 含 从 7 月 1 日 到 7 月 31 日 数据 
的 文档 将 送 入 7 月 的 bucket 中 ,以 此 类 推 。 
Histogram( 柱 状 图 ): 此 聚合 用 于 包含 数字 或 数据 值 的 字段 。 它 需要 一 个 数据 类 型 
编号 的 字段 和 任何 有 数据 的 值 ,来 提供 聚合 数据 的 区 间 。 它 能 基于 指定 的 时 间 间 隔 
动态 创建 bucket 聚合 。 它 把 符合 bucket 聚合 标准 的 文档 分 组 ,而 这 样 标准 由 区 间 
参数 指定 。 


0 Histogram 聚合 与 Date Histogram 聚合 类 似 。 不 同 之 处 在 于 , Histogram 使 用 


数字 类 型 的 数据 ,而 Date Histogram 使 用 日 期 类 型 的 数据 。 





例如 ,对 于 包含 1 一 1000 数值 字段 的 文档 , 它 的 间隔 被 指定 为 100。 它 将 聚合 所 有 的 
文档 并 且 基 于 bucket 的 值 分 组 ,bucket 的 值 的 关键 字 为 100、200, 以 此 类 推 。 

。 Range( 范 围 ) : 此 聚合 用 于 包含 数值 的 字段 。 它 需要 一 个 数据 类 型 的 字段 ,区 间 需 
要 以 数值 的 形式 指定 来 聚合 数据 。 它 基于 指定 的 范围 创建 bucket 聚合 ,并 把 符合 
bucket 聚合 标准 的 文档 分 组 ,而 这 样 的 标准 由 范围 指定 。 


@@ Range 聚合 与 Histogram 聚合 类 似 。 不 同 之 处 在 于 ,后 者 可 以 动态 创建 bucket 


聚合 ,而 前 者 以 From 和 To 之 间 的 日 期 范围 指定 间隔 。 


。 Date Range( 日 期 范围 ) : 此 聚合 用 于 包含 日 期 类 型 值 的 字段 。 它 需要 一 个 日 期 数据 
类 型 的 字段 ,并 且 用 来 聚合 数据 的 日 期 间隔 需要 以 程序 接受 的 日 期 格式 来 指定 。 它 
基于 指定 的 范围 创建 bucket 聚合 .并 把 符合 bucket 聚合 标准 的 文档 分 组 ,而 这 样 的 
标准 由 范围 range 指定 。 
































@ Date Range 聚合 与 Date Histogram 聚合 类 似 。 不 同 之 处 在 于 Date Histogram 
聚合 动态 创建 bucket 聚合 ,而 Date Histogram 聚合 的 bucket 以 From 和 To 之 间 
的 日 期 范围 来 指定 ,而且 日 期 范围 包括 From 的 值 , 但 不 包括 To 的 值 。 
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IPv4 Range(IPv4 范围 ) : 此 聚合 用 于 包含 IP 类 型 值 的 字段 。 它 需要 一 个 IP 数据 类 
型 的 字段 ,其 用 来 聚合 数据 的 范围 也 需要 进行 指定 。IPv4 Range 基于 所 提供 的 IP 
范围 来 创建 bucket 聚合 , 它 把 符合 bucket 聚合 标准 的 文档 分 组 ,而 这 样 的 标准 由 范 
围 指定 。 

Terms( 词 项 ) : 此 聚合 基于 文档 中 字段 的 值 动态 创建 bucket 聚合 。 它 与 SQL 语句 
中 的 GROUP BY 类 似 。 它 以 字段 值 创建 bucket ,并 且 将 包含 该 字段 的 文档 放 入 其 
中 。 它 允许 依据 Top N 或 者 Bottom N 排列 字段 。 例 如 ,文档 中 包含 一 个 以 国家 命 
名 的 字段 。 可 依据 国家 名 称 将 数据 分 组 来 找到 前 五 个 或 者 后 五 个 国家 。 
Filters( 过 滤 ): 此 聚合 基于 搜索 查询 创建 bucket, 它 使 用 搜索 查询 作为 过 滤器 ,同时 
也 是 bucket 聚合 的 关键 。 例 如 可 以 选择 一 个 查询 ,比如 countries: India, 这 将 为 相 
同 的 内 容 创建 一 个 bucket, 并 将 文档 与 搜索 查询 匹配 。 

Significant terms: 此 聚合 大 部 分 用 于 寻找 数据 中 不 常见 的 词 项 , 它 比 较 了 索引 中 包 
含 数据 本 身 的 前 景 集合 和 包含 数据 索引 的 背景 集合 。 此 聚合 提供 前 景 和 背景 集合 
中 发 生 的 显著 改变 的 结果 。 

GeoHash : 此 聚合 用 于 包含 geo_point 值 的 字段 , 它 可 以 动态 创建 bucket。 它 将 匹配 
geo_points 的 文档 分 组 为 bucket。 只 有 瓦 片 地 图 (TileMap) 的 可 视 化 图 表 中 才 可 以 
出 现 GeoHash。 所 有 的 buckets 聚合 在 Kibana 中 的 显示 如 下 图 所 示 : 














Signlficant Terms 





4.7.1.2 metric 聚合 


metric( 指 标 ) 聚 合 可 以 执行 bucket 聚合 中 文档 相关 指标 的 计算 。 该 聚合 计算 诸如 计 
数 . 平 均值 . 求 和 、 中 值 . 最 小 值 . 最 大 值 ,标准 偏差 ,去 重 计 数 百分比 和 百 分 等 级 等 字段 的 指 
标 , 在 bucket 聚合 之 上 使 用 。 将 bucket 与 文档 进行 聚合 之 后 ,可 以 计算 出 一 些 指标 ,例如 
文档 的 数量 、 所 有 文档 中 字段 的 平均 值 ,以 及 所 有 文档 中 字段 的 最 小 值 或 最 大 值 ,以 提供 每 
个 bucket 的 单一 值 结果 。 在 图 表 的 可 视 化 中 :这些 指 标 可 以 表示 面积 图 .折线 图 或 直方 图 
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的 立轴 。 
Kibana 中 不 同 的 metric 聚合 如 下 所 示 : 


Count( 计 数 ) : 此 聚合 主要 用 于 计算 每 个 bucket 中 的 文档 数量 ,并 将 其 返回 值 作为 
自己 的 值 。 这 个 值 可 以 用 于 从 文档 里 显示 的 任何 字段 中 提取 计数 。 

例如 : 为 了 了 解 访问 网 站 的 用 户 数量 ,可 以 使 用 站 点 名 称 字段 进行 bucket 聚合 ,并 
使 用 metric 聚合 来 计算 该 网 站 的 用 户 数量 。 

Average( 平 均值 ) : 此 聚合 用 于 计算 存储 在 bucket 的 文档 中 数字 字段 的 平均 值 。 
Sum( 求 和 ): 此 上 聚合 用 于 计算 存储 在 bucket 的 文档 中 数字 字段 的 总 和 。 
Median( 中 间 值 ): 此 聚合 用 于 计算 中 间 值 , 它 将 较 高 的 一 半数 值 与 较 低 的 一 半数 值 
分 隔 开 。 它 也 可 以 被 视 为 第 50 个 百分点 。 

Min( 最 小 值 ) : 此 聚合 用 于 计算 存储 在 bucket 的 文档 中 数字 字段 的 最 小 值 。 
Max( 最 大 值 ) : 此 聚合 用 于 计算 存储 在 bucket 的 文档 中 数字 字段 的 最 大 值 。 
Standard Deviation( 标 准 差 ): 此 聚合 用 于 计算 bucket 中 的 文档 所 存储 数值 的 分 散 
情况 , 它 量 化 了 字段 值 之 间 的 差异 。 

Unique Count( 唯 一 值 ) : 此 聚合 用 于 计算 存储 在 bucket 的 文档 中 一 个 字段 的 唯一 
值 的 数目 。 它 的 功能 类 似 于 SQL 中 的 COUNT(DISTINCT fieldname) 。 
Percentile( 百 分 比 ): 此 聚合 用 于 计算 存储 在 bucket 的 文档 中 数字 字段 的 百分比 。 
因为 它 存储 每 个 bucket 的 多 个 值 , 所 以 属于 多 值 测度 聚合 的 范畴 。 百 分 比 的 结果 
是 指定 文档 的 百分比 的 值 。 

Percentile Ranks( 百 分 等 级 ) : 此 聚合 用 于 计算 bucket 中 的 文档 包含 数字 字段 的 百 
分 等 级 。 因 为 每 个 bucket 中 存储 了 多 个 值 , 所 以 它 属 于 多 值 metric 聚合 的 范畴 。 
它 指定 了 bucket 中 值 的 百分比 。 


所 有 的 metrics 聚合 在 Kibana 中 的 显示 如 下 图 所 示 : 








Standard Deviation 
Unique Count 
Percentiles 
Percentile Ranks 
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了 解 了 用 于 创建 可 视 化 的 底层 聚合 之 后 ,我 们 来 看 一 看 如 何 构建 由 Kibana 提供 的 多 种 
可 视 化 效果 。 


4.7.2 ”可视化 画布 


可 视 化 画布 (Visualization Canvas) 由 三 个 主要 部 分 组 成 : 

。 工具 栏 (Toolbar) : 提供 许多 选项 ,比如 新 建 可 视 化 (New Visualization) ,保存 可 视 
化 (Save Visualization) .打开 已 有 的 可 视 化 (Open Saved Visualization) ,分 享 可 视 化 
(Share Visualization) 以 及 刷新 (Refresh) 。 

。 聚合 设计 器 (Aggregation Designer): 由 两 个 选项 卡 组 成 : 数据 (Data) 和 选项 
(Options) 。Data 选项 卡 用 于 在 创建 可 视 化 的 基础 上 定义 metric 和 bucket 聚合 。 
Options 选项 卡 用 于 定义 为 可 视 化 提供 的 附加 选项 ,这 些 选项 可 以 根据 需要 来 定义 。 

。 预览 可 视 化 (Preview Visualization): 用 于 预览 使 用 Aggregation Designer 创建 的 可 
视 化 内 容 。 它 提供 了 一 个 单独 的 视图 页 面 来 自 定义 、 编 辑 或 者 修改 可 视 化 并 立即 得 
到 新 的 视图 。 

现在 ,我 们 来 浏览 一 下 可 视 化 的 类 型 。 


4.7.3 面积 图 


面积 图 (area chart) 用 于 显示 数据 (文档 ?在 一 段 时 间 内 的 分 布 , 适 用 于 创建 堆 释 的 时 间 
线 。 它 主要 用 于 显示 随时 间 变 化 的 趋势 ,该 区 域 用 各 种 颜色 来 描述 数据 。 


4.7.4 数据 表 


数据 表 (data table) 用 于 以 表格 格式 显示 聚合 数据 ,以 文本 的 形式 提供 结果 。 它 用 于 显 
示 文 档 中 存储 的 任何 类 型 的 数据 ,使 之 获得 更 好 的 理解 。 


人 @ 数 据 表 可 以 以 原始 的 或 特定 的 格式 导出 数据 。 








4.7.5 折线 图 


折线 图 (line chart) 用 于 以 行 的 形式 显示 一 段 时 间 内 的 数据 (文档 ) 分 布 。 它 有 助 于 创 
建 时 间 序 列 图 ,主要 用 于 显示 随时 间 变 化 的 趋势 或 者 比较 多 个 时 间 序 列 图 。 


4.7.6 气泡 图 


气泡 图 (bubble chart) 是 折线 图 的 扩展 ,而 不 是 线 ,其 中 每 个 数据 点 都 显示 为 一 个 气泡 。 
通过 在 Y 轴 上 添加 其 他 指标 并 将 指标 类 型 设置 为 点 的 大 小 ,可 以 将 折线 图 扩展 /转换 为 气 
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泡 图 。 
4.7.7 Markdown 部 件 


该 部 件 用 于 在 基于 文本 的 输入 中 显示 指令 、 信 息 或 者 解释 。 它 是 一 个 GitHub 特点 的 
标记 ,可 以 显示 任何 文本 、 链 接 、 表 或 代码 块 ,对 于 与 面板 有 关 的 信息 非常 有 用 。 


4.7.8 Metric 


Metric 属于 数值 类 统计 ,用 于 显示 单个 数字 的 所 有 分 析 。 它 显示 了 基于 数据 的 测度 聚 
合 的 数目 ,并 且 不 涉及 任何 bucket 聚合 。 


4.7.9 饼 图 


饼 图 (pie chart) 用 于 显示 所 有 数量 的 比例 。 它 用 片 (slice) 的 方式 来 表示 ,每 一 个 环 整 
体 都 由 若干 部 分 拼 成 ,这 些 部 分 都 有 各 自在 整体 中 的 占 比 。 大 多 数 情况 下 ,只 有 显示 比较 少 
的 片 时 才 会 使 用 这 个 可 视 化 效果 。 


4.7.10 标签 云 


标签 云 (tag cloud) 用 于 给 数据 提供 可 视 化 的 表示 。 它 通过 字体 颜色 和 字体 大 小 来 表示 
一 个 单词 的 重要 性 。metric 聚合 的 类 型 决定 了 字体 大 小 。 如 果 使 用 了 计数 ,那么 出 现 次 数 
最 多 的 单词 字体 最 大 ,出 现 次 数 最 少 的 单词 字体 最 小 。 
4.7.11 瓦 片 地 图 


瓦 片 地 图 (tile map) 用 于 显示 基于 地 理 坐 标的 地 理 位 置 ,坐标 由 经 纬度 决定 。 它 使 用 
GeoHash bucket 聚合 来 映射 指向 其 位 置 的 点 。 


4.7.12 时 间 序 列 

时 间 序 列 (time series) 使 用 Timelion 表达 式 语言 来 创建 基于 时 间 的 图 表 , 它 有 助 于 推 
导 统 计数 据 、 移 动 平均 值 以 及 一 系列 其 他 数学 函数 。 可 以 在 本 章 4. 9 节 学 习 更 多 有 关 可 视 
化 的 内 容 。 
4.7.13 直方 图 


直方 图 (vertical bar chart) 是 用 于 显示 各 种 数据 的 通用 图 表 , 用 于 基于 和 非 基 于 时 间 的 
数据 。 它 使 用 竖 条 来 表示 数据 ,其 大 小 由 它们 的 值 决定 。 条 形 越 长 ,其 值 越 高 ;条 形 越 短 ,其 
值 越 小 。 
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下 面 是 Kibana 为 不 同 的 可 视 化 提供 的 各 种 数据 (Data) 和 选项 (Options) 的 列表 。 
Data 选项 可 视 化 如 下 表 所 示 : 




















可 视 化 类 型 metric bucket 
面积 图 Y 了 轴 X 轴 ,分 割 区 域 . 分 割 图 
数据 表 Metric 分 割 行 .分割 表 
折线 图 立轴 X 轴 、 分 割 线 、 分 割 区 域 
Metric Metric 
饼 图 片 大 小 分 割 片 .分割 图 
标签 云 标签 大 小 标签 
瓦 片 地 图 地 理 坐 标 
直方 图 X 轴 、 分 割 条 、 分 割 区 域 





Option 选项 可 视 化 如 下 表 所 示 




















可 视 化 类 型 视图 选项 
各国 图 表 模 式 ( 堆 乔 . 重 登 百分比、 摆动 .轮廓 ) .平滑 线 .设置 Y 轴 的 区 段 ,将 立轴 刻度 与 
数据 对 应 . 按 降序 顺序 排列 .图 例 位 置 . 显 示 工具 提示 

每 个 页 面 .显示 每 个 bucket 或 级 别 的 指标 、 显 示 部 分 行 .计算 每 个 bucket 或 级 别 的 指 
数据 表 > 
标 、 显 示 

折线 图 立轴 刻度 (线性 .对 数 .平方根 ) .平滑 线 .显示 连接 线 、 显 示 圆 .设置 Y 轴 的 区 段 、 刻 度 
La Y 轴 数据 范围 . 按 降序 顺序 排列 .图 例 位 置 显 示 工 具 提 示 
Metric 字体 大 小 
饼 图 环形 饼 图 .图 例 位 置 .显示 工具 提示 
标签 去 文本 规模 (线性 、 对 数 .平方 根 ) .定向 (单一 直角 、 多 个 ) .字体 大 小 .显示 标签 
所 片 地 图 。 | 地 图 类 型 (缩放 圆 形 标记 、 阴 影 圆 标记 ,阴影 网 格 ` 热 点 图 ,图例 位 置 、. 显 示 工具 提示 、 

外 Desaturate Map Tiles .WMS 兼容 地 图 服务 器 
站 条 形 模式 ( 堆 秋 .百分比 ,分 组 ) 、Y 轴 刻 度 ( 线 性 .对 数 .平方 根 ) .设置 Y 轴 的 区 段 . 刻 
a 度 立 轴 数 据 范围 、 按 降序 顺序 排列 .图 例 位 置 .显示 工具 提示 





4.8 ”探索 Dashboard 界面 


面板 (Dashboard) 提 供 了 一 个 统一 的 视图 , 即 在 一 个 地 方 显示 所 有 的 可 视 化 效果 。 面 
板 中 提供 了 多 种 可 视 化 效果 或 以 任何 方式 排列 的 搜索 结果 集合 , 它 有 调整 .移动 .编辑 或 者 
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删除 面板 上 任何 可 视 化 内 容 的 功能 。 当 所 有 可 视 化 效果 都 在 面板 中 实时 更 新 时 ,面板 为 流 
数据 提供 实时 视图 ,对 可 视 化 内 容 的 更 新 可 以 在 面板 上 立即 显示 出 来 。 面 板 还 提供 了 使 用 
搜索 查询 的 能 力 , 可 以 根据 搜索 结果 更 新 面板 中 的 可 视 化 效果 。 





全 创建 面板 时 需要 事先 保存 可 视 化 内 容 或 者 搜索 结果 。 








面板 页 面 的 界面 如 下 图 所 示 : 





New Add Save Open Share Options © Last15minutes 


Ready to get started? 


Chck the fl bumon In the menu bar above to add a visualzation to the dashboard. 
fyou havenr setup a visuallzation yet st the Vsuallzer tab to create your first visuallzanon. 











面板 界面 非常 容易 理解 ,因为 它 展示 了 Kibana 首部 的 主要 部 分 。 它 在 所 有 包含 时 间 过 
滤器 的 界面 中 都 是 相同 的 。 

工具 栏 由 一 些 选项 组 成 ,比如 : 

。 搜索 栏 (Search Bar) : 查询 面板 ,类 似 于 查询 页 面 的 查询 功能 。 

。 新 建 面板 (New Dashboard): 创建 一 个 新 的 面板 。 





全 如 果 已 经 创建 了 面板 ,并 已 经 向 其 中 添加 了 可 视 化 效果 ,但 是 没有 保存 面板 就 单 
击 了 新 建 面板 ,之 后 未 保存 的 面板 将 被 清空 ,并 且 其 中 添加 的 可 视 化 内 容 也 会 消失 。 





。 添加 (Add): 添加 已 保存 的 可 视 化 和 搜索 面板 。 

。 保存 面板 (Save Dashboard) : 保存 包含 可 视 化 的 面板 。 

。 打开 面板 (Open Dashboard) : 加 载 已 保存 的 包含 可 视 化 的 面板 。 

。 共享 (Share) : 通过 共享 链接 或 者 将 链接 租 入 到 Web 页 面 中 来 共享 面板 ,此 外 ,还 允 
许 生成 一 个 简短 的 URL 来 共享 链接 。 

。 选项 (Options): 为 面板 选择 主题 ,可 选择 深 色 主题 或 者 亮色 主题 。 
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4.9 ”了解 Timelion 


Timelion 是 随 着 引入 Elastic Stack 的 Kibana UI 中 新 增 的 内 容 , 用 于 分 析 和 可 视 化 时 
间 序 列 数据 。 它 提供 将 多 个 数据 源 合并 成 一 个 可 视 化 统计 图 表 的 能 力 , 并 给 出 了 一 系列 可 
以 使 用 的 数学 计算 ,例如 累加 、 求 导 和 求 平均 数 等 。 

Timelion 位 于 Kibana UI 左边 的 导航 栏 中 ,在 面板 和 开发 工具 图 标 之 间 。 它 有 自己 的 
语言 和 解释 ,使 我 们 很 难 上 手 开始 应 用 。 不 过 , 它 有 一 个 很 好 的 内 置 文档 和 教程 可 指导 我 们 
如 何 开 始 使 用 Timelion。 

单 击 Timelion 时 ,界面 如 下 图 所 示 : 





区 New Add save open Opnons poc OUstismnutes 
全 本 | mmn 
© me 
六 eo 
四 
四 
0 
四 
> 
立 国耻 
国 os00 2noaog zimoog zl200 211400 zeog 2n1800 212000 
© 








在 上 面 的 截图 中 可 以 看 到 ,输入 框 中 已 经 添加 了 一 个 默认 的 表达 式 . es( x* ), 这 意味 着 
它 将 在 所 有 的 索引 中 查询 Elasticsearch 中 的 全 部 数据 。 图 中 的 内 容 表示 Elasticsearch 中 
的 文档 数 。 

将 表达 式 从 . es( x ) 修 改 为 . es(index 二 logs) 可 查询 某 个 特定 的 索引 ,例如 日 志 。 之 后 ， 
它 将 显示 在 Elasticsearch 中 logs 索引 中 的 文档 数 。 

下 面 ,简单 地 了 解 一 下 Timelion 的 界面 : 

。 新 建 (New) : 为 创建 可 视 化 而 开启 一 个 新 的 Timelion 页 面 。 

。 添 加 (Add) : 在 同一 Timelion 页 面 内 添加 图 表 。 

。 保存 (Save) : 保存 Timelion 页 面 。 它 提供 两 个 选项 .可 保存 Timelion 表 或 将 当前 表 

达 式 保存 为 Kibana 面板 。 
。 打开 (Open) : 打开 已 保存 的 Timelion 图 表 。 
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选项 (Options): 提供 了 指定 行 数 和 列 数 的 选项 。 
文档 (Docs) : 提供 了 Timelion 入 门 的 文档 。 


其 他 选项 : 


时 间 过 滤器 (Time Filter) : 提供 了 时 间 过 滤 选 项 来 过 滤 数 据 。 
搜索 框 (Search Box) : 提供 了 使 用 语言 和 表达 式 来 分 析 数 据 的 用 法 。 


时 间 间 隔 (Time Interval) : 指定 要 定义 的 时 间 间 隔 。 如 果 设 置 为 自动 (auto), 则 根 
据 时 间 过 滤器 中 的 时 间 来 选择 时 间 间 隔 。 它 就 在 搜索 框 旁 边 , 可 以 设置 为 1 秒 、1 


分 钟 、1 天 、1 年 或 自 定义 的 时 间 间 隔 。 


要 开始 学 习 如 何 使 用 Timelion, 先 单 击 Timefilter 选项 旁边 工具 栏 中 的 Docs 选项 。 
后 ,将 会 出 现 函数 写法 的 参考 信息 ,该 信息 描述 了 Timelion 中 的 所 有 可 用 函数 。 该 界面 
如 下 图 所 示 ， 


| 





New Add Save Open Dptons Docs OLast15minutes 


Function reference 
Chek a funetion for detalls and arguments or return tn the tutorlal 


abs() Return the absolute value of each value in the series st 

add0) Adds the values of one or more serles In a serlesUst to each posluon In each serles of the Input serlesList 

bars() Show the serlesUst as bars 

‘colonl) change the color of the serles 

‘condition() Compares each polnt to a number, or the same point in another serles using an operator, then sets Its valueto the result If the conditon proves 
nue wlth an optional else. 

cusum0) Return the cumulative sum of a serles starting at a base. 

‘derivatlvel) Plot the change in values over Ume. 
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可 以 向 下 拉 滚 动 条 查看 更 多 功能 ,这 里 有 将 近 50 个 功能 。 它 还 提供 了 从 诸如 Quandl 
和 世界 银行 等 第 三 方 站 点 获取 数据 的 功能 ,这 些 数 据 以 API 调用 的 形式 提供 。 
同样 ,从 之 前 的 截图 中 ,还 可 以 看 到 有 一 个 教程 的 参考 资料 ,其 中 有 对 Timelion 的 更 深 
入 的 理解 。 若 要 浏览 本 教程 ,请 单 击 返回 教程 (return to the tutorial) 的 链接 ,之 后 界面 会 跳 
转 到 欢迎 访问 Timelion(Welcome to Timelion) 页 面 ,如 下 图 所 示 : 
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New ”Add Save Open Options Doc OUast15minutes 


Welcome to timelion the timeseries expression interface for everything 


Timelion. Timeline. Get It? Ok, enough with the puns Timellon Is the, clawing, gnashing, zebra illing, pluggable timeserles Interface for everything. If your datastore can 

Produce a timeseries, then you have all of the awesome power of Timellon at your disposal. Timellon lets you compare, combine and combobulate (not actually a word) 

MEN Breas ina at Cais, 人 的 二 TEER REMMItt te warve Dasa iste everatatst ors. hile tte sé ethan lle 
in Elasticsearch, once you're rolling you'll discover you can use nearly everything you learn here with any datasource timellon suppors. 


Why start with elasticsearch? Well, you're using timellon, so we know you have Kibana, st ye rss 
everything to be easy Ok lets do this thing.IfyouTe already famllar With Timelions syntax, Jump to the function referencs, otherwlse cllck the Next button In the lower right 
comer. 











可 以 单 击 Next 按钮 来 学 习 关 于 Timelion 的 知识 ,该 按钮 在 教程 页 面 的 右 下 角 。 
让 我 们 看 一 下 在 添加 图 表 后 出 现 的 几 个 选项 : 
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。 移 除 (Remove) : 从 Timelion 表 中 移 除 图 表 。 
。 排序 (Drag to Order) : 重新 排列 各 种 图 表 的 位 置 。 
。 全 屏 (Full Screen) : 全 屏 显 示 已 创建 的 可 视 化 内 容 。 


4.10 ”探索 开 发 者 工具 


开发 者 工具 (Dev Tools) 是 帮助 开发 人 员 的 开发 工具 。 在 Kibana 中 , 它 用 于 控制 台 
UI。 它 提供 了 一 个 简洁 的 用 户 接口 ,可 以 使 用 由 Elasticsearch 客户 端 开放 的 REST API 来 
访问 API 查询 。 控 制 台 允 许 我 们 从 Web 浏览 器 中 调用 任何 API。 它 的 接口 提供 了 一 种 简 
洁 的 方法 来 调用 和 生成 JSON 格式 ,从 而 可 以 简洁 的 方式 查看 结果 。 它 在 Elasticsearch 集 
群 的 HTTP 层 上 运行 。 

单 击 Dev Tools 导航 按钮 后 ,将 看 到 控制 台 UI, 如 下 图 所 示 : 
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为 了 更 好 地 理解 上 图 中 用 标号 1 一 7 所 标示 的 所 有 功能 .描述 如 下 : 

(1) 编辑 器 窗 格 (Editor Pane): 在 这 个 区 域 里 写 需 要 运行 的 命令 。 它 使 用 类 似 于 
cURL 的 语法 ,并 以 一 种 简单 的 方式 呈现 出 来 。 例 如 默认 情况 下 ,一 个 查询 语句 在 控制 台中 
如 下 所 示 : 


GET _search 
{ 
"query": { 
"match all": {} 
} 
} 


它 可 以 被 解释 为 以 下 的 Elasticsearch 查询 : 
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curl -XGET "http://localhost:9200/_search" -d' 
{ 
"query": { 
"match all": {} 
} 

}! 

GET 是 要 使 用 的 访问 方式 ,search 是 搜索 在 Elasticsearch 中 的 所 有 索引 的 端点 。 该 
区 域 可 为 API\ 索 引 、 类 型 等 提供 自动 完成 和 自动 建议 的 内 容 。 可 以 粘贴 完整 的 cURL 命 
令 , 它 们 将 自动 转换 为 控制 台所 采用 的 语法 。 





人 @ 榨 制 台 将 查询 Kibana 连接 到 Elasticsearch 的 主机 地 址 。 上 默认 情况 下 ,该 地 址 为 
localhost :9200。 





(2) 响应 窗 格 (Response Pane) : 无 论 我 们 请 求 什么 ,控制 台 都 会 向 Elasticsearch 发 送 
请 求 , 并 且 返 回 的 结果 将 在 这 个 区 域 中 以 JSON 格式 显示 出 来 。 

(3) 这 个 选项 展示 请 求 历 史 , 它 存储 了 最 近 的 500 条 请 求 历史 。 

(4) 通过 此 选项 ,可 以 更 改 字体 属性 ,自动 完成 设置 等 。 

(5) 这 是 一 个 为 用 户 提 供 的 帮助 选项 ,展示 了 一 个 简单 的 请 求 , 并 且 列 出 了 所 有 的 快捷 键 。 

(6) 无 论 输 入 什么 请 求 , 都 可 以 通过 单 击 绿色 运行 按钮 来 运行 该 请 求 。 

(7) 这 个 扳手 图 标 提供 了 一 个 选项 ,可 以 将 请 求 复制 为 cURL 命令 。 如 果 文 本 应 该 自 
动 缩 进 , 则 单 击 该 图 标 即 可 完成 。 如 果 请 求 信息 已 经 被 正确 格式 化 ,并 且 选 择 了 auto 
indent ,那么 控制 台 将 会 将 完整 的 请 求 合 并 成 一 行 ,这 对 于 调试 是 很 有 用 的 。 


全 可 以 在 编辑 窗 格 中 编写 多 个 请 求 , 这 些 请 求 将 按照 指定 的 顺序 逐一 执行 。 





4.11 探 寿 设置 界面 


设置 (Management) 界 面 提供 了 自 定义 和 调整 各 种 Kibana 相关 属性 的 方法 。 这 个 页 面 
包含 多 类 选项 ,用 来 理解 每 个 选项 涉及 的 各 种 设置 。 各 种 选项 如 下 图 所 示 : 
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下 面 我 们 来 深入 学 习 选 项 中 提供 的 各 种 设置 。 
4.11.1 索引 模式 


该 选项 提供 了 配置 索引 或 索引 模式 的 功能 ,所 配置 的 索引 或 索引 模式 可 以 与 Kibana 一 
起 使 用 。Kibana 中 提供 了 许多 索引 模式 ,这 些 索 引 模 式 已 经 被 配置 为 与 Kibana 一 起 使 用 ， 
并 且 能 够 查看 在 索引 中 显示 的 各 种 字段 的 相关 信息 。 

可 以 配置 许多 索引 类 型 ,比如 : 

。 索引 和 名称 (Index Name); 

。 索引 模式 (Index Patterns) 。 

索引 模式 被 分 成 如 下 两 种 搜索 类 型 : 

。 通配符 搜索 : logstash- * 将 获取 所 有 以 logstash- 开 头 的 索引 名 称 。 

。 基于 事件 的 时 间 : [logstash-]YYYY-MM-DD 将 以 一 个 模式 来 获取 所 有 的 索引 ,其 

中 索引 名 称 以 logstash- 开 头 ,之 后 是 事件 /日 期 时 间 。 

对 于 索引 的 额外 设置 , 单 击 索引 可 以 查看 更 多 信息 ,比如 : 

。 列 出 索引 中 所 有 字段 ; 

。 字段 的 属性 ,如 类 型 ,格式 、 可 搜索 、 聚 合 、 分 析 、 排 除 和 控制 ; 

。 将 索引 设置 为 默认 索引 的 选项 ; 

。 更 新 索引 里 的 字段 列表 ; 

。 从 Kibana 中 移 除 索引 模式 

。 管理 字段 属性 ,比如 更 改 字段 格式 。 

单 击 索引 名 称 之 后 ,可 以 在 字段 之 外 获取 其 他 设置 ,比如 : 

。 Scripted fields: 创建 动态 生成 的 字段 以 计算 信息 。 

。 Source filters: 排除 来 自 _ source 字段 的 字段 。 因 为 source 字段 包含 所 有 的 字段 ， 

其 中 一 些 字段 可 能 不 重要 。 因 此 ,可 以 直接 从 _source 字段 移 除 这 些 不 重要 字段 。 


4.11.2 已 保存 的 对 象 


这 个 选项 用 于 管理 多 个 已 保存 的 对 象 ,比如 已 保存 的 搜索 结果 、 可 视 化 内 容 和 面板 。 这 
些 已 保存 对 象 用 于 查看 、 编 辑 、 导 出 、 导 入 和 删除 对 象 。 它 还 提供 了 将 所 有 保存 对 象 一 次 性 
导出 为 搜索 结果 、 可 视 化 内 容 或 面板 的 功能 。 


4.11.3 高 级 设置 


这 个 选项 包含 了 诸如 实验 性 的 、 未 加 入 文档 的 或 未 支持 的 高 级 设置 。 它 提供 了 额外 的 
功能 来 调整 Kibana 的 设置 和 控制 。 它 主要 用 于 高 级 用 户 的 使 用 ,但 如 果 使 用 不 当 会 造成 不 
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可 预料 的 结果 。 同 样 ,这 里 执行 的 任何 删除 设置 ,都 将 在 Kibana 中 永久 生效 。 
下 面 ,看 一 下 这 个 选项 卡 提供 的 部 分 设置 : 
。 dateFormat: 改变 文档 中 的 日 期 格式 。 
例如 : 默认 设置 为 : MMMM DD YYYY,HH:mm:ss.SSSCJuly 27th 2016 ,12:46 
01.000) 
可 以 更 改 为 : MMMM DD YYYY(July 27 2016) 
。 dateFormat: tz: 用 于 更 改 指定 时 区 的 日 期 格式 。 
例如 : 默认 设置 为 : Browser-IST(July 27th 2016 ,12:45:25. 000) 
可 以 更 改 为 : Asia/Singapore (June 27th 2016,15:15:25. 000) 
。 doc_table: highlight: 指定 是 否 将 结果 高 亮 。 
默认 设置 为 : True (在 Discover 界面 和 已 保存 的 搜索 结果 面板 中 ) 
。 history: limit: 显示 查询 输入 的 最 近 值 。 
默认 设置 为 : 10 
。 savedObjects: perPage: 使 用 加 载 对话 框 ,显示 每 个 网 页 中 保存 的 对 象 数 。 
默认 设置 为 : 5 
。 timepicker: timeDefaults: 设置 默认 的 Kibana 时 间 过 滤器 。 
默认 设置 为 : {"from":"now-l15m","to":"now","mode":"quick"} 
可 以 更 改 为 : { "from": "now-30m" "to": "now-15m", "mode" : "relative"} 
。 timepicker: timeDefaults: 改变 默认 时 间 过 滤器 ,并 将 展示 的 结果 从 30 分 钟 前 更 改 
为 15 分 钟 前 。 
。 dashboard: defaultDarkTheme: 设置 面板 页 面 的 默认 主题 。 
默认 设置 为 : false, 可 更 改 为 true。 面 板 打 开 时 它 将 始终 显示 深 色 主题 的 面板 。 
了 解 Kibana 提供 的 多 个 选项 后 ,如 果 仔 细 观 察 ,就 会 发 现 还 有 一 些 选项 , 即 提供 
Kibana 最 少量 的 信息 。 单 击 右 上 角 的 信息 图 标 ,将 提供 以 下 信息 : 
。 版 本 号 ; 
。 提交 SHA 散 列 码 。 
同样 ,在 管理 界面 标题 和 Kibana 设置 选项 之 间 也 提 到 了 版 本 号 。 
有 时 可 能 会 有 一 些 问题 ,Kibana 不 能 启动 或 者 不 显示 在 查询 界面 中 的 任何 数据 。 为 了 
知道 Kibana 是 否 正确 启动 ,可 以 单 击 下面 的 URL: 
http://localhost:5601/status 
这 里 的 localhost 是 你 的 Kibana 服务 器 的 主机 地 址 。 
上 面 的 URL 会 提供 一 些 信息 ,下面 一 节 会 对 这 些 信息 进行 介绍 。 
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4.11.4 状态 


状态 用 于 提供 Kibana 服务 器 的 状态 和 其 他 信息 ,比如 : 
。 堆 总 大 小 ; 

。 已 使 用 的 堆 大 小 ; 

。 负载 ; 

。 平均 响应 时 间 ; 

。 最 大 响应 时 间 ; 

。 每 秒 请 求 ; 

。 关于 Kibana 安装 插件 的 明细 及 其 名 称 和 状态 。 


4.12 ”综合 应 用 


学 习 Elasticsearch .Logstash 和 Kibana 之 后 ,让 我 们 使 用 这 些 组 件 创建 端 到 端的 数据 
管道 (pipeline) ,来 解析 从 Logstash 到 Elasticsearch 的 数据 ,并 使 用 Kibana 将 数据 可 视 化 。 
我 们 将 使 用 CSV 文件 作为 输入 数据 ,分 析 和 创建 数据 的 可 视 化 。 这 将 帮助 我 们 通过 联合 使 
用 三 个 组 件 来 快速 入 门 并 创建 端 到 端的 数据 管道 pipeline。 学 习 这 一 章 中 的 例子 时 ,假定 
已 经 按照 第 1 章 的 描述 成 功 安装 了 Elasticsearch .Logstash 和 Kibana。 


4.12.1 输入 数据 


下 面 将 使 用 美国 农业 部 经 济 研究 局 (USDA ERS) 提 供 的 输入 数据 ,这 是 美国 各 地 区 居 
民 从 1970 年 到 2014 年 受 教 育 程度 的 数据 。 这 些 数 据 提供 了 人 们 关于 受 教育 程度 的 信息 ， 
包含 未 获得 高 中 文 任 的 人 、 只 有 高 中 文凭 的 人 、 只 完成 了 大 专 (1~3 年 ) 学 位 的 人 ,还 有 获得 
了 大 学 本 科 四 年 学 位 的 人 等 信息 。 所 有 这 些 信息 都 是 从 1970 年 到 2014 年 ,以 十 年 为 间隔 
展示 的 。 它 代表 了 按照 国家 和 地 区 名 称 划分 的 接受 教育 的 人 数 和 比例 。 这 些 数据 还 提供 了 
从 2003 年 到 2013 年 关于 Rural-Urban Continuum Code(RUCC) 和 Urban Influence Code 
(UIC) 的 信息 。 文 件 格式 为 . csv。 





个 数 据 来 自 http://www. ers. usda. gov/data-products/county-level-data-sets/ 
download-data. aspx。 

关于 UIC 的 信息 详 见 http://www. ers. usda. gov/ data-products/urban-influence- 
codes/ documentation. aspx。 

关于 RUCC 的 信息 详 见 http://www. ers. usda. gov/data-products/rural-urban- 


continuum-code s/ documentation. aspx。 
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这 个 文件 包含 大 量 的 头 (headers) 信息 或 者 说 列 。 我 们 将 使 用 部 分 头 信息 来 分 析 数 据 
和 创建 可 视 化 图 表 。 

让 我 们 看 一 下 这 部 分 工作 流程 。 所 使 用 的 输入 数据 会 被 插入 到 Logstash 进行 处 理 , 输 
出 的 数据 将 存储 在 Elasticsearch 中 ,之 后 Kibana 将 使 用 这 些 数据 来 分 析 数 据 。 

具体 工作 流程 如 下 : 

(1) 创建 一 个 Logstash 配置 文件 ,并 执行 如 下 步骤 : 

Q@ 使 用 file 输入 插件 将 数据 插入 到 Logstash 中 。 

@ 使 用 CSV 过 滤器 来 命名 文件 中 的 列 , 并 将 字段 的 数据 类 型 从 字符 串 更 改 为 适当 的 
数据 类 型 。 

@ 使 用 Elasticsearch 输出 插件 将 数据 存 人 Elasticsearch ,也 可 以 使 用 标准 输出 的 方式 
将 日 志 信息 输出 到 屏幕 上 。 

(2) 在 Kibana 中 创建 一 个 新 的 索引 模式 。 

(3) 在 Kibana 中 分 析 数 据 并 对 数据 执行 可 视 化 。 


4. 12.2 创建 Logstash 配置 文件 


我 们 已 经 了 解 了 用 于 输入 .过 滤 和 输出 的 各 种 插件 。 为 了 便于 理解 ,下 面 将 展示 每 个 输 
入 .过滤 和 输出 插件 的 配置 文件 的 内 容 。 
通过 执行 以 下 代码 来 使 用 Input 插件 : 





input{ 
filef{ 
path =>"/usr/share/logstash/InputData/Education.csv" 


start position =>"beginning" 


} 


在 前 面 的 Input 插件 中 ,使 用 了 文件 输入 插件 ,并 指定 了 读 取 输入 数据 的 文件 路 径 , 并 
设置 了 读 取 数据 从 开头 到 结尾 的 全 部 内 容 。 通 过 实现 以 下 代码 来 使 用 Filter 插件 : 


filter 
csvt{ 
columns=> 
[ 
"State", 
"AreaName", 


"2003Rural-urbanContinuumCode", 
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"2003UrbanInfluenceCode", 
"2013Rural-urbanContinuumCode", 
"2013UrbanInfluenceCode", 

"Lessthanahighschooldiploma,1970", "Highschooldiplomaonly,1970", 
"Percentofadultswithlessthanahighschooldiploma,1970", 
"Percentofadultswithlessthanahighschooldiploma, 2010-2014", 
"Percentofadultswithahighschooldiplomaonly,2010-2014", 
"Percentofadultscompletingsomecollegeorassociate'sdegree,2010-2014", 
"Percentofadultswithabachelor'sdegreeorhigher,2010- 2014" 

] 

} 

mutate { 
convert =>["2003Rural-urbanContinuumCode","integer"] 
convert =>["2003UrbanInfluenceCode","integer"] 
convert =>["2013Rural-urbanContinuumCode","integer"] 
convert =>["2013UrbanInfluenceCode","integer"] 
convert =>["Lessthanahighschooldiploma,1970","integer"] 
convert =>["Highschooldiplomaonly,1970","integer"] 


convert => 





["Percentofadultswithlessthanahighschooldiploma,1970 





-ELoat™] 
convert => 


["Percentofadultswithlessthanahighschooldiploma,2010- 2014", "float"] 


convert => 


["Percentofadultswithahighschooldiplomaonly,2010-2014","float"] 
convert => 


["Percentofadultscompletingsomecollegeorassociate'sdegree,2010-2014","float"] 


convert => 


["Percentofadultswithabachelor'sdegreeorhigher,2010- 2014", "float"] 
条 


在 前 面 的 Filter 插件 中 ,我们 使 用 了 CSV 过 滤器 插件 ,其 中 指定 了 CSV 中 的 列 名 ,并 
使 用 mutate 对 象 将 字段 的 数据 类 型 从 字符 串 改 为 浮 点 数 或 者 整数 。 





伟 默 认 情况 下 ,CSV 中 的 列 名 一 般 命名 为 column 1 column 2 等 。 同 样 在 默认 情况 
下 ,Logstash 将 列 解析 为 字符 串 类 型 。 





通过 实现 下 面 的 代码 来 使 用 Output 插件 : 


> 
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output{ 
elasticsearch { 
hosts =>"localhost:9200" 
index =>"education" 
} 
stdout { codec =>rubydebug } 
b 


在 上 面 的 Output 插件 中 ,通过 指定 主机 名 、 索 引 名 称 和 文档 类 型 等 属性 来 存储 
Elasticsearch 中 的 数据 。 同 样 ,使 用 stdout 可 以 将 输出 数据 打印 到 正在 运行 的 Logstash 
shell 命令 界面 中 。 

将 之 前 创建 的 Logstash 配置 以 文件 名 education. conf 存储 在 /usr/share/logstash 文 
件 夹 下 。 转 到 Logstash 存储 目录 ,并 执行 下 面 的 命令 运行 带 有 配置 文件 的 Logstash: 


$ sudo bin/logstash -f education.conf 


pores 所 带 有 配置 文件 的 Logstash 之 前 ,Elasticsearch 正在 以 第 1 章 中 所 描 


述 的 状态 





Logstash 将 运行 和 解析 每 一 种 输入 ,并 将 这 些 输 入 数据 存储 在 Elasticsearch 的 
education 索引 中 。 控 制 台 中 的 日 志 显 示 了 输入 的 数据 如 何 存储 在 Elasticsearch 中 。 输 出 
如 下 : 


Settings: Default pipeline workers: 4 

Logstash startup completed 

{ "message" =>"US,UnitedStates,,,,,"523,73,312","341,58,051",47.7, 
13.7,28.0;29.1;29.3 

"@version"=>"1", 

"@timestamp" =>"2017-02-16T05:02:31.8782"， 


"path" =>/usr/share/logstash/InputData/Education.csv 





"host" =>"ubuntu", 

"State" =>"US", 

"AreaName" =>"Unitedstates", 
"2003Rural-urbanContinuumCode" =>nil, 
"2003UrbanInfluenceCode" =>nil, 
"2013Rural-urbanContinuumCode" =>nil, 
"2013UrbanInfluenceCode" =>nil, 
"Lessthanahighschooldiploma,1970" =>"523,73,312", 
"Highschooldiplomaonly,1970" =>"341, 58, 051", 
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"Percentofadultswithlessthanahighschooldiploma,1970" =>"47.7", 





"Percentofadultswithlessthanahighschooldiploma,2010- 2014" 





13 
"Percentofadultswithahighschooldiplomaonly,2010-2014" =>"28.0", 
"Percentofadultscompletingsomecollegeorassociate'sdegree,2010-2014" => 
Wa 业 

"Percentofadultswithabachelor'sdegreeorhigher,2010-2014" =>"29.3" 

} 


4.12.3 使 用 Kibana 


将 数据 从 Logstash 送 入 Elasticsearch 后 ,让 我 们 来 看 看 存储 到 Elasticsearch 中 的 数 
据 。 可 以 按照 第 1 章 中 介绍 的 方式 运行 Kibana, 也 可 以 将 其 作为 服务 来 运行 ,或 者 运行 bat 
文件 ( 限 Windows 用 户 )。 

下 面 的 命令 将 Kibana 终端 作为 服务 启动 : 


sudo service kibana start 
或 者 , 转 到 Kibana 安装 目录 后 ,使 用 以 下 命令 启动 Kibana( 限 Ubuntu 系统 ) ; 
bin/kibana 


或 者 ,在 Windows 系统 中 直接 单 击 Kibana 安装 目录 中 的 Kibana. bat 文件 来 运行 Kibana。 
在 浏览 器 中 输入 以 下 URL 验证 Kibana 是 否 已 经 启动 : 


http://localhost:5601 


配置 索引 模式 (Configure an index pattern) 的 界面 如 下 图 所 示 。 





Management / mpana 
Index patterns Saved Objects Advanced Settings 


ee Configure an index pattern 


In order to use Kibana you must configure at least one Index Parern_Ingex patterns are used to identy the Elasticsearch Index to run searchand 
analytics against. They are also Used to configure fields. 


index contains ume based events 
S Use event times to create index names DEFPECNEDI 
Index name or pattern 


Fattems alow you to define dynamic Index names using * as a wildcard Example: logstash.* 
Iagstashr 


二 pe not expand index pattern when searching Icecrmerceal 


By default searches against any bme-based ndex pattem that contains a widcard will automatically be expanded to query only the ndices 
that contain data within the currently selected time range. 


Searching against the Index pattemn Jogstash.* wil actually query elasticseatch for the specfic matching indices (e.g, Jagstash 2015.12.2) 
that fall wthin the current time range, 


Urabe tp fesrh mapping po rma hove naiers mateming the Patter 
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可 以 通过 指定 索引 名 称 / 模 式 education 配置 索引 模式 。 此 外 ,取消 勾 选 Index contains 
time-based events 选项 ,因为 数据 中 没有 基于 时 间 的 相关 字段 。 最 后 , 单 击 Create 按钮 来 配 
置 索引 。 

单 击 Create 按钮 后 ,我 们 来 验证 一 下 数据 是 否 被 索引 :以 及 它们 的 字段 名 和 数据 类 型 
是 否 正 确 。 转 到 Management 页 面 , 单 击 education 索引 名 称 , 该 索引 名 称 在 左 侧 Index 
了 Patterns 列表 中 。 之 后 界面 中 将 列 出 索引 中 的 字段 并 提供 诸如 字段 名 、 数 据 类 型 .格式 以 及 
字段 是 否 可 搜索 、 肾 合 \ 分 析 或 排除 的 细节 信息 。 接 着 转 到 Discover 界面 来 查询 数据 。 单 击 
Discover 导航 按钮 ,并 在 左 侧 窗 格 找到 这 个 索引 名 称 。 如 果 索 引 名 称 是 education ,那么 
可 以 在 这 个 页 面 中 查询 数据 ,或 者 通过 单 击 索 引 名 称 旁 边 的 箭头 按钮 来 选择 education 的 索 
引 名 称 。 

Discover 页 面 的 数据 如 下 图 所 示 。 
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通过 查看 与 每 个 字段 相关 联 的 数据 可 了 解 这 些 文档 ,以 便 更 好 地 获知 这 些 字段 所 表达 
的 内 容 以 及 字段 中 包含 的 值 。 可 以 找到 诸如 State 和 AreaName 等 字段 中 的 值 , 单 击 可 用 
字段 (Available Fields) 来 查看 该 字段 中 最 常见 的 值 。 为 想 查 看 的 数据 添加 字段 ,可 以 很 容 
易 地 分 析 这 些 数据 。 

分 析 数 据 后 ,我 们 来 执行 可 视 化 。 创 建 并 保存 可 视 化 内 容 , 这 些 内 容 可 以 用 来 创建 一 个 
面板 。 下 面 为 以 下 场景 构建 可 视 化 : 

。 基于 2003 年 RUCC 统计 的 前 几 个 国家 ; 

。 基于 2003 年 UIC 统计 的 前 几 个 国家 ; 

。 1970 年 学 历 低 于 高 中 毕业 水 平 的 前 五 个 地 区 ; 
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1970 年 学 历 达 到 高 中 毕业 水 平 的 前 五 个 地 区 ; 

1970 年 按 地 区 和 州 统计 的 低 于 高 中 毕业 文凭 的 成 人 比例 ; 

根据 数量 统计 和 2013 年 RUCC 统计 的 前 几 个 州 ; 

包含 总 记录 、2013 年 RUCC 总 数 、2013 年 UIC 总 数 、 州 总 数 、 地 区 名 称 总 数 、 未 获得 
高 中 文凭 (2010 一 2014 年 ) 的 成 年 人 平均 百分比 、 仅 有 高 中 文凭 的 成 年 人 的 平均 百 
分 比 有 大 学 或 者 大 专 学 历 的 成 年 人 的 平均 百分比 有 学 士 学 位 或 者 更 高 学 位 的 成 
年 人 的 平均 百分比 等 数据 的 总 览 


4.12.3.1 基于 2003 年 RUCC 的 前 几 个 州 


在 这 个 场景 中 ,希望 创建 一 个 条 形 图 来 展示 前 五 个 RUCC 值 以 及 州 的 数量 统计 。 
(1) 单 击 Visualize 选项 卡 并 且 选 择 直 方 图 (Vertical bar chart) 来 创建 一 个 新 的 可 视 化 


容 。 


(2) 新 建 搜索 并 选择 一 个 搜索 源 ,指定 索引 名 称 为 education( 在 Kibana 中 配置 多 个 索 


引 的 情况 下 )。 


(3) 在 metrics 部 分 ,将 立轴 的 聚合 方式 设置 为 Count。 在 buckets 聚合 中 ,设置 X 轴 


的 聚合 方式 为 Terms, 并 应 用 在 2003Rural-urbanContinuumCode 字段 上 。 该 字段 以 
metric:Count 为 依据 来 执行 降序 排序 ,并 将 size 设置 为 5。 


(4) 在 子 聚 合 中 ,将 Split Bars 的 聚合 方式 设置 为 Terms, 并 应 用 在 State. keyword 字 


段 上 。 该 字段 以 metric:Count 为 依据 降序 排序 ,并 将 其 size 设置 为 5。 


(5) 单 击 Apply 按钮 查看 可 视 化 结果 ,如 下 图 所 示 。 


2003Rural urbancontinuumCode: Descending 
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将 这 个 可 视 化 统计 图 以 TopStatesBasedon2003RUCC 名 称 保存 ,这 将 用 于 创建 面板 。 
4.12.3.2 基于 2003 年 UIC 的 前 几 个 州 


在 这 个 场景 中 ,希望 创建 一 个 条 形 图 来 展示 UIC 统计 数量 最 多 的 前 五 个 州 ,并 基于 这 
些 州 的 统计 ,展示 前 三 种 2003 年 UIC 的 值 。 

(1) 单 击 Visualize 选项 卡 ,并 且 选 择 直 方 图 来 创建 一 个 新 的 可 视 化 内 容 。 

(2) 新 建 搜索 并 选择 一 个 搜索 源 ,指定 索引 名 称 为 education( 在 Kibana 中 配置 多 个 索 
引 的 情况 下 ) 。 

(3) 在 metrics 部 分 ,将 Y 轴 的 聚合 方式 设置 为 Count。 在 buckets 聚合 中 ,设置 X 轴 的 
聚合 方式 为 Terms ,并 应 用 在 State. keyword 字段 上 。 该 字段 以 metric: Count 为 排序 依据 ， 
执行 降序 排序 ,并 将 size 设置 为 5。 

(4) 在 子 聚 合 中 设置 Split Bars 的 聚合 方式 为 Terms ,并 应 用 在 2003UrbanInfluenceCode 
字段 上 。 此 处 以 metric:Count 为 依据 降序 排序 ,并 将 其 size 设置 为 5。 

(5) 单 击 Apply 按钮 查看 可 视 化 结果 ,如 下 图 所 示 。 
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将 这 个 可 视 化 统计 图 以 TopStatesBasedon2003UIC 名 称 保存 ,这 将 用 于 创建 面板 。 
4.12.3.3 1970 年 学 历 低 于 高 中 毕业 水 平 的 前 五 个 地 区 


在 这 个 场景 中 ,希望 创建 一 个 条 形 图 ,展示 LessthanHighSchoolDiploma1970 字段 的 前 
五 个 值 及 其 对 应 的 地 区 名 称 : 
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(1) 单 击 Visualize 选项 卡 并 且 选 择 垂 直 条 形 图 来 创建 一 个 新 的 可 视 化 内 容 。 

(2) 新 建 搜索 并 选择 一 个 搜索 源 ,指定 索引 名 称 为 education( 在 Kibana 中 配置 多 个 索 
引 的 情况 下 ) 。 

(3) 在 metrics 部 分 ,设置 Y 轴 的 聚合 方式 为 Count。 在 buckets 聚合 中 ,设置 X 轴 的 聚 
合 方式 为 Terms ,并 应 用 在 LessthanHighSchoolDiploma,1970 字段 上 。 此 处 以 词 项 出 现 的 
次 数 为 排序 依据 ,执行 降序 排序 ,并 将 size 设置 为 5。 

(4) 在 子 聚 合 中 ,设置 Split Bars 的 聚合 方式 设置 为 Terms, 并 应 用 在 AreaName. 
keyword 字段 上 。 此 处 以 metric: Count 为 依据 降序 排序 ,并 将 其 Size 设置 为 5。 

(5) 单 击 Apply 按钮 来 查看 可 视 化 结果 ,如 下 图 所 示 。 
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将 这 个 可 视 化 统计 图 以 Top5AreaNamewithLessthanHSD1970 名 称 保存 ,这 将 用 于 创 
建 面 板 。 在 这 个 可 视 化 统计 图 当中 ,我 们 可 以 看 到 AreaName 中 United States 的 值 ,这 是 
字段 中 所 有 值 的 总 和 ,我 们 将 它 排除 在 其 他 可 视 化 中 。 


4.12.3.4 1970 年 学 历 达到 中 学 毕业 水 平 的 前 五 个 地 区 


在 这 个 场景 中 ,希望 创建 一 个 条 形 图 ,展示 HighSchoolDiploma1970 字段 的 前 五 个 值 及 
其 所 对 应 的 地 区 名 称 。 

(1) 单 击 Visualize 选项 卡 ,并 且 选 择 直方 图 创建 一 个 新 的 可 视 化 内 容 。 

(2) 新 建 搜索 并 选择 一 个 搜索 源 ,指定 索引 名 称 为 education( 在 Kibana 中 配置 多 个 索 
引 的 情况 下 )。 
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(3) 在 metrics 部 分 ,设置 Y 轴 的 聚合 方式 为 Count。 在 buckets 聚合 中 ,设置 X 轴 的 聚 
合 方式 为 Terms ,并 应 用 在 HighSchooldiplomaonly,1970 字段 上 。 此 处 以 词 项 出 现 的 次 数 
为 排序 依据 ,执行 降序 排序 ,并 将 size 设置 为 5。 

(4) 在 子 聚 合 中 ,设置 Split Bars 的 聚合 方式 为 Terms, 并 应 用 在 AreaName. keyword 
字段 上 。 此 处 以 metric: Count 为 依据 降序 排序 ,并 将 其 size 设置 为 5。 现在 需要 排除 
AreaNameunitedstates 的 搜索 结果 , 单 击 图 例 中 的 United States ,之 后 单 击 正 过 滤器 符号 来 
添加 过 滤器 。 然 后 选择 过 滤 操 作 , 并 选择 反 转 , 它 将 显示 除 United States 外 的 所 有 
AreaNames 信息 。 

(5) 单 击 Apply 按钮 查看 可 视 化 结果 ,如 下 图 所 示 。 
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将 可 视 化 文件 保存 为 Top5AreaNamewithHSD1970 ,该 文件 将 创建 一 个 新 的 面板 。 


4.12.3.5 1970 年 按 地 区 和 州 统计 的 低 于 高 中 毕业 文凭 的 成 人 比例 


在 这 个 场景 中 ,希望 创建 一 个 饼 图 ,来 展示 1970 年 低 于 高 中 文凭 的 成 年 人 中 百分比 最 
高 的 前 五 个 值 及 其 对 应 的 地 区 名 称 : 

(1) 单 击 Visualize 选项 卡 , 并 且 选 择 饼 图 来 创建 一 个 新 的 可 视 化 内 容 。 

(2) 新 建 搜索 并 选择 一 个 搜索 源 ,指定 索引 名 称 为 education( 在 Kibana 中 配置 多 个 索 
引 的 情况 下 )。 

(3) 在 metrics 部 分 ,设置 Slice Size 的 聚合 方式 为 Count。 在 buckets 聚合 中 ,选择 Split 
Slices 上 的 Terms 聚合 ,并 应 用 在 Percentofadultswithlessahighschooldiploma, 1970 字段 
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上 。 此 处 以 词 项 出 现 的 次 数 为 依据 降序 排序 ,并 将 其 size 设置 为 5。 

(4) 在 子 聚合 中 ,设置 Split Splices 的 聚合 方式 为 Terms, 并 应 用 在 State. keyword 字 
段 上 ,以 词 项 出 现 的 次 数 为 依据 降序 排序 ,并 将 其 size 设置 为 5。 

(5) 在 子 聚 合 中 , 设置 Split Splices 的 聚合 方式 为 Terms, 并 应 用 在 AreaName. 
keyword 字段 上 。 此 处 以 词 项 出 现 的 次 数 为 依据 降序 排序 ,并 将 其 size 设置 为 5。 

(6) 单 击 Apply 按钮 查看 可 视 化 结果 ,如 下 图 所 示 。 
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将 可 视 化 文件 保存 为 % AdultslessthanHSD1970ByArea&.State, 该 文件 将 用 于 创建 
面板 。 
4.12.3.6 根据 计数 以 及 2013 年 RUCC 排名 统计 的 前 几 个 州 


在 这 个 场景 中 ,希望 创建 一 个 数据 表 . 来 展示 州 字段 的 前 五 个 值 以 及 其 对 应 的 2013 年 
RUCC 的 前 五 个 值 : 

(1) 单 击 Visualize 选项 卡 ,并 且 选 择 数据 表 来 创建 一 个 新 的 可 视 化 内 容 。 

(2) 新 建 搜索 并 选择 一 个 搜索 源 ,指定 索引 名 称 为 education( 在 Kibana 中 配置 多 个 索 
引 的 情况 下 )。 

(3) 在 metrics 部 分 ,设置 Metric 的 聚合 方式 为 Count。 在 buckets 聚合 中 ,设置 Split 
Rows 的 聚合 方式 为 Terms, 并 应 用 在 State. keyword 字段 上 。 此 处 以 metric:Count 为 依据 
来 执行 降序 排序 ,并 将 size 设置 为 5。 

(4) 在 子 聚 合 中 ,设置 Split Rows 的 聚合 方式 为 Terms, 并 应 用 在 2013Rural- 
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urbanContinuumCode 字段 上 。 此 处 以 metric:Count 为 依据 降序 排序 ,并 将 其 size 设置 为 5。 
(5) 单 击 Apply 按钮 查看 可 视 化 结果 ,如 下 图 所 示 。 
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将 可 视 化 文件 保存 为 Topstateswith2013RUCCCodes ,该 文件 被 用 于 创建 面板 。 
4.12.3.7 了 解 统计 数据 


在 这 个 场景 中 ,希望 创建 一 个 一 站 式 的 有 关 数 据 统计 的 可 视 化 内 容 。 我 们 将 看 到 记录 
的 总 数 .2013 年 RUCC 的 特定 值 ,2013 年 UIC 的 特定 值 . 地 区 总 数 、 地 区 名 称 总 数 、 拥 有 低 
于 高 中 文凭 的 成 年 人 平均 百分比 、 仅 拥有 高 中 文 途 的 成 年 人 平均 百分比 ,拥有 大 学 或 大 专 学 
历 的 成 年 人 百分比 、 拥 有 学 士 学 位 或 者 更 高 学 位 的 成 年 人 的 百分比 。 

(1) 单 击 Visualize 选项 卡 ,选择 Metric 创建 一 个 新 的 可 视 化 内 容 。 

(2) 新 建 搜索 并 选择 一 个 搜索 源 ,指定 索引 名 称 为 education( 在 Kibana 中 配置 多 个 索 
引 的 情况 下 ) 。 

(3) 在 metrics 部 分 ,设置 Metric 的 聚合 方式 为 Count, 并 应 用 在 2013Rural 
urbanContinuumCode 字段 上 。 

(4) 在 metrics 部 分 添加 一 个 Unique count 聚合 ,并 应 用 在 2013UrbanInfluenceCode 
字段 上 。 

(5) 在 metrics 部 分 添加 一 个 Unique count 聚合 ,并 应 用 在 State. keyword 字段 上 。 

(6) 在 metrics 部 分 添加 一 个 Unique count 聚合 ,并 应 用 在 AreaName. keyword 字 
段 上 。 


这 
第 4 章 Kibana 界 面 155 ， 





(7) 在 metrics 部 分 添加 一 个 Unique count 聚合 .并 应 用 在 Percentofadultswithabachelor' 
sdegreeorhigher,2010-2014 字段 上 。 

(8) 在 metrics 部 分 添加 一 个 Average 聚合 .并 应 用 在 Percentofadultscompletingsome 
collegeorassociate'sdegree,2010-2014 字段 上 。 

(9) 在 metrics 部 分 添加 一 个 Average 聚合 ,并 应 用 在 Percentofadultswithabachelor' 
sdegreeorhigher,2010-2014 字段 上 。 

(10) 在 metrics 部 分 添加 一 个 Average 聚合 .并 应 用 在 Percentofadultswithahigh 
schooldiplomaonly,2010-2014 字段 上 。 

(11) 在 metrics 部 分 添加 一 个 Average 聚合 ,并 应 用 在 Percentofadultswithless 
thanahighschooldiploma,2010-2014 字段 上 。 在 Options 选项 卡 中 ,将 字号 (Font Size) 改 为 
35, 以 显示 所 有 信息 。 

(12) 单 击 Apply 按钮 查看 可 视 化 结果 ,如 下 图 所 示 。 
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将 可 视 化 文件 保存 为 Insights-Metric, 该 文件 将 被 用 于 创建 面板 。 


4.12.4 ”在 Kibana 中 创建 面板 


将 所 有 已 保存 的 可 视 化 内 容 添加 到 面板 。 为 了 完成 此 操作 ,要 进入 Dashboard 页 面 ,并 
且 单 击 添加 (Add) 。 在 添加 了 所 有 的 可 视 化 内 容 以 及 移动 和 调整 大 小 之 后 ,会 得 到 一 个 如 
下 图 所 示 的 面板 。 
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4.13 ”本 章 狼 结 


在 这 一 章 中 ,我 们 学 习 了 Kibana 及 其 界面 ,并 且 简 单 了 解 了 Kibana 的 功能 。 通 过 一 些 
例子 ,我 们 创建 了 许多 类 型 的 可 视 化 统计 图 表 来 分 析 数 据 。 如 今 ,Kibana 在 分 析 工 具 中 非 
常 受 欢 迎 ,因为 它 提 供 了 众多 功能 。 在 下 面 的 章节 中 ,将 学 习 更 多 的 内 容 , 例 如 实时 数据 集 、 
生产 环境 服务 器 的 日 志 分 析 等 。 

在 下 一 章 中 ,我 们 将 会 学 习 Beats, 它 是 Elastic Stack 中 的 一 个 新 组 件 。 我 们 将 以 示例 
的 形式 来 了 解 Beats 的 类 型 ,使 用 方法 以 及 其 在 Elastic Stack 中 的 作用 。 








使 用 Beats 


在 前 面 的 章节 中 ,探讨 了 以 往 的 ELK Stack 组 件 , 读 者 已 对 每 个 组 件 的 基础 知识 以 及 
组 件 之 间 如 何 一 起 工作 有 所 了 解 。 现 在 , 随 着 Stack 的 快速 扩张 与 增长 ,来 熟悉 Elastic 
Stack 中 的 最 新 组 件 。 

在 这 一 章 中 ,将 介绍 Beats 的 基本 概念 以 及 Beats 的 其 他 内 容 , 从 基础 到 进 阶 层面 来 展 
示 Beats 的 各 种 类 型 及 其 功能 ,并 讲解 Beats 是 如 何 融入 Elastic Stack 中 的 。 

本 章 主要 内 容 如 下 : 

。 Beats 组 件 介绍 ; 

。 Beats 与 Logstash 的 不 同 之 处 ; 

。 Beats 如 何 融 入 Elastic Stack; 

。 不 同类 型 的 Beats 组 件 概 述 ; 
Elastic 团队 开发 的 Beats 组 件 ; 
。 社区 成 员 开 发 的 Beats 组 件 ; 
。 Elastic Stack 上 的 Beats 实战 。 


5.1 Beats 简介 


在 了 解 Beats 之 前 , 先 了 解 Beats 是 如 何 出 现 的 。Beats 不 是 作为 ELK Stack 背后 的 
Elastic 公司 的 一 个 项 目 开 始 的 ,而 是 始 于 Packetbeat 项 目 。 在 这 里 ,开发 人 员 访 问 并 统计 
各 服务 器 之 间 的 通信 情况 ,并 通过 数据 传输 为 其 提供 信息 。 

他 们 想 开 发 一 个 解决 方案 ,将 数据 存储 在 Elasticsearch 中 ,但 不 会 消耗 很 高 的 内 存 或 
资源 。 之 前 他 们 在 每 台 需 要 获取 信息 的 服务 器 上 运行 Logstash 程序 时 , 遇 到 了 JVM 消耗 
内 存 和 资源 过 大 的 问题 。 而 Packetbeat 因 其 轻 量 级 的 数据 传输 能 力 广 受 欢 迎 , 它 可 以 将 数 
据 传输 到 Elasticsearch 而 无 须 消耗 太 多 的 内 存 和 CPU 资源 。 随 着 受 欢 迎 程度 的 上 升 ， 
Elastic 收购 了 Packetbeat 并 创建 了 Beats 平台 。 这 一 平台 包含 许多 由 Elastic 开发 的 Beats 
组 件 ;这 其 中 也 包含 由 社区 开发 者 开发 的 Beats 组 件 ,它们 的 软件 框架 和 类 库 均 已 开放 。 
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Beats 是 最 新 添加 到 Elastic Stack 的 组 件 。Beats 组 件 不 像 ELK Stack 中 的 其 他 组 件 
那样 具备 即 插 即 用 的 功能 .例如 ELK Stack 使 用 Elasticsearch 来 搜索 和 分 析 数 据 , 使 用 
Logstash 来 处 理 日 志 , 使 用 可 视 化 工具 Kibana 来 将 数据 进行 可 视 化 展示 。 然 而 , Beats 整 
体 是 一 个 提供 各 种 不 同 的 Beats 组 件 的 平台 。 它 拥有 解析 和 传输 数据 的 能 力 ,能够 从 不 同 
来 源 收集 日 志 , 经 过 解析 后 传送 至 Logstash 或 Elasticsearch, 然 后 在 Kibana 中 进行 可 视 
化 。 因 此 ,Beats 是 一 种 开源 的 轻 量 级 数据 传送 工具 ,可 以 收集 主机 或 服务 器 中 的 操作 数据 
并 发 送 到 Elasticsearch 或 Logstash 中 。 可 以 将 数据 从 Beats 直接 发 送 到 Elasticsearch ,或 
者 出 于 不 同 的 目的 , 先 将 数据 发 送 给 Logstash 进行 处 理 和 分 析 , 之 后 再 传人 Elasticsearch 。 
也 可 以 将 Beats 理解 为 收集 数据 并 传送 到 Elasticsearch 或 Logstash 的 轻 量 级 守护 进程 的 
集合 。 由 于 Beats 组 件 轻 量 的 本 质 , 因 此 它 不 会 在 操作 系统 中 占用 很 大 空间 。 

Beats 平台 中 包含 了 许多 针对 不 同 目的 而 开发 的 Beats 组 件 。 如 果 要 解决 具体 的 用 例 ， 
就 可 为 用 例 创 建 一 个 beat 程序 , 它 将 带 来 灵活 性 ,之 后 也 可 以 公开 这 个 组 件 为 开源 软件 社 
区 做 出 贡献 。 为 了 简化 自己 的 Beats 组 件 的 开发 过 程 ,Beats 平台 提供 了 API 中 的 所 有 选项 
和 使 用 方法 ,这 样 就 可 以 亲自 开发 beat 程序 ,其 间 只 需 关 注 特 定 于 具体 应 用 的 beat 的 处 理 
逻辑 ,而 其 他 一 切 都 交 由 平台 处 理 。 平 台 提 供 了 一 个 处 理 各 种 服务 的 通用 框架 ,并 为 每 个 人 
提供 了 统一 的 软件 框架 来 使 用 和 开发 Beats。Beats 平台 使 用 Go 语言 编写 ,Go 语言 通过 调 
用 更 少 的 资源 和 内 存 使 Beats 组 件 更 加 高 效 , 而 这 样 反 过 来 又 有 利于 它 基于 代理 agent 的 
数据 传输 。 





5.2 Beats 与 Logstash 的 不 同 之 处 


从 我 们 所 了 解 的 Beats 来 看 , 它 与 Logstash 十 分 相似 。 其 中 我 们 使 用 Input 插件 来 解 
析 数 据 。 那 么 ,它们 哪里 不 一 样 呢 ?Logstash 只 是 数据 分 析 工 具 , 而 Beats 是 一 套数 据 传输 
工具 ,可 以 将 数据 从 文件 数据 流 或 日 志 等 一 系列 输入 源 中 传输 数据 。 尽 管 Logstash 也 能 
传输 数据 ,但 这 不 是 它 的 主要 用 途 。 简 而 言 之 ,Beats 和 Logstash 在 功能 上 很 相似 ,但 两 者 
在 开发 方式 和 使 用 的 底层 技术 上 又 有 着 明显 的 差异 。 


让 我 们 看 看 它们 之 间 的 区 别 : 
。 Logstash 会 消耗 大 量 的 内 存 , 并 且 需 要 较 多 的 系统 资源 ;Beats 需要 较 少 的 系统 资 
源 ,消耗 的 内 存 也 很 少 。 


。 安装 在 需要 收集 日 志 的 操作 系统 上 的 Logstash 是 一 套 体 量 相对 较 大 的 软件 ; Beats 
则 是 轻 量 级 的 数据 传输 工具 , 它 可 以 在 多 个 操作 系统 之 间 传 输 数据 。 

。 如 果 从 多 个 系统 收集 日 志 , 则 不 需要 在 每 个 操作 系统 中 运行 Logstash 服务 ; Beats 
可 以 在 所 有 需要 传输 数据 的 操作 系统 之 间 运 行 。 
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。 Logstash 是 基于 Java 语言 编写 的 , 它 需 要 JVM 的 支持 ,而 Beats 是 基于 Go 语言 开 
发 的 。 
。 有 时 候 只 需要 解析 一 些 日 志 ,而 不 使 用 Filter 插件 来 做 任何 形式 的 处 理 。 在 这 样 的 
情况 下 ,可 编写 一 段 Logstash 配置 。 为 了 编写 这 些 配置 ,需要 事先 学 习 配 置 文件 的 
编写 方法 ,而 这 就 需要 事先 学 会 在 Elasticsearch 中 存储 数据 。 然 而 ,只 计划 收集 日 
志 的 时 候 , 还 是 推荐 使 用 Beats 组 件 。 这 样 既 避免 了 额外 的 数据 处 理 过 程 , 又 能 将 
数据 直接 传输 到 Elasticsearch 中 ,不 会 包含 增加 程序 复杂 度 的 其 他 工作 插件 。 
根据 前 面 的 解释 ,我 们 可 以 了 解 到 ,Logstash 是 一 个 体 量 比 较 重 的 工具 ,将 它 安装 在 多 
个 操作 系统 中 ,需要 占用 大 量 的 内 存 空间 ,同时 会 消耗 较 多 的 系统 资源 。 为 解决 这 个 问题 ， 
我 们 有 Logstash-forwarder, 它 是 针对 与 Beats 相同 的 应 用 场景 建立 的 ,是 一 套 轻 量 级 的 工 
具 , 不 需要 很 多 的 系统 资源 。 那 么 Logstash-forwarder 和 Beats 一 样 吗 ? 
Logstash-forwarder 的 确 是 针对 与 Beats 相同 的 用 例 建立 的 , 它 是 将 数据 从 多 个 数据 源 
传输 到 Logstash 或 Elasticsearch 的 唯一 一 个 轻 量 级 解决 方案 。 此 外 , 它 曾 在 社区 中 被 忽 
视 , 在 添加 新 功能 .改进 现 有 功能 和 修复 bug 方面 比较 落后 。 现 在 , 随 着 时 间 的 推移 ,Elastic 
Stack 已 被 越 来 越 多 的 组 织 和 企业 使 用 ,人 们 对 定制 个 性 化 、 轻 量 级 数据 传输 工具 ,并 实现 
向 Elasticsearch 或 Logstash 传输 数据 功能 的 需求 .在 日 益 增长 。 
作为 Beats 组件 的 一 员 ,Filebeat 是 基于 Logstash-forwarder 的 项 目 , 并 利用 其 现 有 项 
目 代 码 开发 。 现 有 的 项 目 代 码 已 经 使 用 Go 语言 重新 封包 ,并 遵循 公共 软件 框架 将 其 开发 
为 一 款 beat 程序 ,同时 使 用 同样 的 公共 框架 来 开发 其 他 beat 程序 。Logstash-forwarder 的 
核心 功能 已 在 Filebeat 中 使 用 ,比如 发 送 消 息 后 接收 确认 信息 以 防止 数据 的 丢失 ,以 及 
Lumberjack 协议 等 ,已 被 广泛 应 用 在 Filebeat 中 。Beats 框架 服务 使 Beats 更 容易 作为 
Windows 服务 来 运行 。 
这 样 可 能 会 出 现 一 个 问题 : Beats 会 不 会 在 未 来 取代 Logstash 呢 ? 这 个 问题 的 答案 
很 简单 : 不 会 的 。Logstash 类 似 于 功能 多 样 的 “瑞士 军刀 ”, 能 提供 从 多 个 数据 源 加 载 数 
据 的 功能 ,使 用 各 种 强大 的 插件 来 处 理 日 志 , 并 提供 将 多 个 来 源 的 输出 数据 进行 存储 的 
功能 。 简 而 言 之 ,Logstash 提供 数据 ETL( 数 据 的 提取 、 变 换 和 加 载 ) 的 功能 ;而 Beats 是 
轻 量 级 的 数据 传输 工具 ,能 将 数据 传输 到 Logstash 或 Elasticsearch 中 ,其 间 没有 对 数据 进 
行 任 何 转换 。 





5.3 Beats 如 何 融 岂 Elastic Stack 


使 用 ELK Stack 一 段 时 间 之 后 ,我 们 会 问 : Stack 中 还 可 以 加 入 其 他 组 件 吗 ? 
我 们 认为 这 是 最 大 问题 之 一 : 在 哪里 以 及 如 何 将 Beats 融入 Elastic Stack? 在 探讨 了 
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什么 是 Beats 组 件 之 后 ,本 节 将 涉及 针对 这 个 问题 的 答案 。 

Beats 组 件 会 为 使 用 过 程 带 来 无 穷 无 尽 的 机 遇 , 它 已 经 作为 核心 组 件 之 一 被 添加 到 
Stack 当中 。 在 ELK Stack 中 ,会 受到 Input 插件 的 限制 ,只 有 通过 这 些 插件 才能 读 取 数 
据 。 如 果 想 在 Elasticsearch 中 为 操作 数据 创建 索引 ， We edad a 
Docker 容器 统计 信息 、Tomcat JMX 数据 或 系统 进程 级 别 的 统计 数据 ,就 需要 写 一 
Logstash 的 Input 插件 ,然后 将 其 用 于 这 样 的 场景 。 ba 
统 中 获取 日 志 , 这 时 可 以 使 用 Beats 来 收集 这 些 数据 ,并 传输 到 一 个 集中 的 Logstash 服务 
器 来 解析 、 人 处 理 和 存储 数据 。 这 种 场景 不 需要 使 用 具有 大 容量 内 存 和 足够 资源 的 系统 ， 
因为 Beats 组 件 是 轻 量 级 的 数据 传输 工具 。 此 外 ,在 只 需要 分 析 数 据 而 不 用 处 理 数据 的 
使 用 场景 中 , Beats 组件 将 会 发 挥 作用 ,可 以 将 数据 直接 存储 在 Elasticsearch 中 ,而 不 需要 
用 到 Logstash。 

让 我 们 来 看 看 Elastic Stack 的 概貌 ,如 下 图 所 示 。 
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参考 链接 : https://www. elastic. co/guide/en/beats/libbeat/5. 1/images/beats- 
platform. png 。 

在 前 面 的 图 表 中 ,可 以 看 到 Beats 平台 由 Elastic 开发 的 不 同 Beats 组 件 构成 。 
Beats 组 件 负 砍 收 梨 和 传输 数据 到 Logstash 或 Elasticsearch 中 ,以 进行 进一步 处 理 或 
存储 。 之 后 ,这 些 数据 可 以 用 来 分 析 运 营 数据 或 使 用 Kibana 创建 可 视 化 统计 图 表 或 
面板 。 

理解 Beats 之 后 ,让 我 们 来 看 看 由 Elastic 和 由 社区 开发 者 开发 的 各 种 Beats 组 件 。 
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5.4 不 同类 型 的 Beats 组 件 概 太 


在 本 节 中 ,将 讨论 已 经 开发 并 在 企业 中 用 于 开发 和 生产 目的 的 Beats 组 件 。Beats 组 件 
是 由 Elastic 以 及 社区 开发 者 开发 和 优化 、 提 升 性 能 的 。 

下 面 是 由 Elastic 开发 的 Beats 组 件 : 

。 Packetbeat; 

。 Metricbeat; 

。 Filebeat; 

。 Winlogbeat; 

。 Libbeat 。 

下 面 是 开源 社区 开发 的 Beats 组 件 : 

。 Apachebeat; 

。 Dockbeat; 

。 Elasticbeat; 

。 Execbeat; 

。 Httpbeat; 

。 Lmsensorsbeat; 

。 MySQLbeat; 

。 Twitterbeat 以 及 更 多 的 Beats 组 件 。 





人 @ Flastic 不 会 为 开源 社区 开发 的 Beats 组 件 提供 任何 支持 。 





5.4.1 Elastic 团队 开发 的 Beats 组 件 


如 前 所 述 ,我 们 将 研究 Elastic 团队 提供 的 不 同类 型 的 Beats 组 件 , 了 解 每 种 beat 程序 
的 含义 以 及 它们 提供 的 功能 。 


5.4.1.1 Packetbeat 


Packetbeat 是 主要 的 Beats 组 件 , 它 起 始 于 Elastic 公司 外 的 一 个 项 目 。Elastic 为 创建 
Beats 平 台 , 将 开发 该 项 目的 公司 收购 ,现在 它 已 经 成 为 Elastic Stack 不 可 或 缺 的 一 部 分 。 

Packetbeat, 正如 从 其 名 字 可 猜 到 的 那样 ,是 一 个 提供 网 络 中 不 同 服务 器 程序 间 相 关 
事务 信息 的 数据 包 分 析 器 。 它 提供 了 不 同类 型 的 应 用 服务 器 之 间 网 络 通信 相关 的 统计 
信息 。 
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5.4.1.2 Metricbeat 


Metricbeat 是 重要 的 Beats 组 件 , 它 收集 多 个 操作 系统 间 以 及 系统 服务 程序 的 运行 指 
标 (metrics)。 在 Linux 系统 中 它 是 top 命令 的 扩展 了 。top 命令 是 用 来 在 系统 层级 上 获取 
进程 信息 的 命令 ,而 Metricbeat 则 是 该 命令 的 一 个 扩展 ,可 以 查看 进程 所 消耗 的 资源 (如 内 
存 使 用 量 、CPU 利用 率 ), 以 及 其 他 系统 信息 。 

除了 在 Linux 系统 中 用 top 命令 获取 系统 运行 指标 之 外 ,这 一 款 Beats 组 件 还 可 以 收 
集 其 他 指标 信息 ,并 将 这 些 信息 一 并 传输 到 Elasticsearch 或 Logstash 中 去 ,之 后 使 用 
Kibana 创建 出 精美 的 可 视 化 统计 图 表 。Metricbeat 是 一 款 轻 量 级 的 数据 传输 工具 , 它 每 隔 
一 段 时 间 就 会 获取 和 传输 操作 系统 和 相关 服务 程序 中 的 运行 指标 。 


5.4.1.3 Filebeat 


Filebeat 组 件 的 灵感 来 自 于 Logstash-forwarder 项 目 , 它 已 经 被 企业 在 生产 环境 中 用 了 很 
长 时 间 。 通 过 以 全 新 的 方式 对 Logstash-forwarder 重新 封包 ,为 Filebeat 的 发 展 铺垫 了 道路 。 

Filebeat 是 一 个 开源 的 日 志 传送 工具 ,传输 来 自 多 个 操作 系统 的 日 志 , 且 消耗 最 少 的 资 
源 。 它 将 日 志文 件 从 操作 系统 传输 到 Elasticsearch 或 Logstash 中 ,提供 了 将 日 志 从 多 个 操 
作 系 统 传输 到 集中 的 操作 系统 或 服务 器 的 功能 ,从 中 可 以 对 日 志 进 行 解析 和 处 理 。 它 没有 
任何 依赖 项 或 任何 插件 来 管理 。 


5.4.1.4 Winlogbeat 


Winlogbeat 是 Elastic Beats 平台 中 最 新 添加 的 组 件 。 这 种 beat 组 件 之 所 以 出 现 , 是 出 
于 专门 获取 Windows 事件 日 志 的 需求 。Winlogbeat 有 助 于 从 不 同类 型 的 Windows 事件 中 
获取 各 种 事件 日 志 , 这 是 使 用 这 款 Beats 组 件 的 一 个 主要 目的 , 它 十 分 简单 易 用 。 

Winlogbeat 是 一 个 开源 的 数据 传输 工具 ,可 以 在 多 个 操作 系统 中 传输 Windows 事件 
日 志 数 据 。 日 志文 件 可 以 按 要 求 传输 到 Elasticsearch 或 Logstash 中 。 它 可 以 作为 
Windows XP 或 更 高 版 本 操作 系统 的 服务 程序 安装 到 系统 中 。 


5.4.1.5 Libbeat 


Libbeat 不 像 之 前 讨论 过 的 Beats 组 件 , 它 不 提供 任何 可 用 的 功能 。 这 是 一 个 由 Elastic 
团队 创建 的 库 ,是 一 个 可 以 对 其 他 Beats 进行 开发 的 通用 框架 或 架构 。 这 个 库 是 用 Go 语言 
编写 的 , 它 公 开 了 可 以 被 所 有 Beats 组 件 直接 使 用 的 API, 从 而 减少 了 开发 工作 ,并 确保 所 


四 译 者 注 : top 命令 是 Linux 下 的 性 能 分 析 工具 ,能 实时 显示 系统 中 各 进程 的 资源 占用 状况 。 
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有 的 Beats 都 以 类 似 的 方式 运行 ,这 样 就 很 容易 使 用 常用 工具 打包 和 运行 。 

开发 Beats 组 件 常用 的 部 分 都 在 Libbeat 库 中 提供 ,其 中 包含 提供 各 种 功能 的 软件 包 ， 
如 向 Elasticsearch 或 Logstash 发 送 数据 ,实现 记录 日 志 , 配 置 输入 ,处 理 通知 ,处 理 
Windows 服务 等 。 对 Libbeat 库 的 优化 将 有 利于 所 有 的 Beats 组 件 , 因 为 开发 者 可 以 使 用 
官方 提供 的 新 库 而 不 必 重 写 代 码 。 


5.4.2 社区 开发 者 开发 的 Beats 组 件 


在 这 一 节 中 ,将 看 到 一 些 由 社区 开发 者 开发 并 对 Beats 平台 做 出 贡献 的 Beats 组 件 。 我 们 
将 看 到 其 中 的 两 个 组 件 ,( 通 过 它们 ?了 解 Beats 是 用 来 做 什么 的 ,以 及 它们 提供 了 哪些 功能 。 


5.4.2.1 Dockbeat 


由 于 容器 类 应 用 程序 Docker 的 不 断 普 及 ,开发 者 在 开源 社区 贡献 了 Dockbeat 组 件 。 
随 着 CI 工具 的 普遍 使 用 , 它 变 得 越 来 越 流行 。 在 生产 中 Docker 正 被 越 来 越 多 地 使 用 ,拥有 
这 样 一 种 提供 容器 相关 统计 信息 的 监测 工具 是 十 分 必要 的 。 如 果 使 用 为 Beats 平台 提供 通 
用 框架 的 Elastic Stack, 那 为 什么 还 要 创建 一 个 单独 的 工具 ,通过 Elastic 的 团队 在 Libbeat 
库 中 提供 的 功能 来 处 理 数 据 呢 ? 

Dockbeat 提供 容器 的 统计 信息 ,如 容器 的 属性 .CPU 使 用 率 、 网 络 运行 状况 统计 信息 、 
内 存 消耗 量 统 计 信息 、1/O 操作 的 访问 统计 、Dockbeat 状态 信息 等 。 如 同 其 他 的 Beats 组 件 
一 样 ,这 是 一 个 安装 在 多 个 操作 系统 中 的 轻 量 级 工具 , 它 可 以 周期 性 地 读 取 Docker 容器 的 
统计 信息 ,并 将 这 些 信息 保存 在 Elasticsearch 的 索引 中 。 我 们 可 以 使 用 Kibana 将 这 些 存储 
的 信息 进行 可 视 化 。 


5.4.2.2 Lmsensorbeat 


Lmsensorbeat 是 一 款 性 能 惊人 却 又 简单 易 用 的 Beats 组 件 ,利用 系统 核心 模块 调用 
lm-sensors 库 , 通 过 来 自传 感 器 的 信息 提供 系统 相关 的 信息 (提供 了 检测 系统 中 多 种 传感器 
信息 的 命令 ,这 些 命令 可 以 通过 安装 Im-sensors 库 来 执行 ) 。 

Lmsensorbeat 通过 监控 各 种 类 型 的 传感器 来 收集 信息 ,如 CPU 或 主板 的 温度 、 电 压 、 
散热 风扇 转速 等 。 这 是 经 常会 被 人 忽略 的 基本 信息 ,但 现在 很 容易 监控 这 些 信 息 , 并 在 
Elasticsearch 中 为 这 些 信 息 创 建 索引 。 


5.5 ”Elastic 团队 开发 的 Beats 组 件 


我 们 已 经 学 习 了 Elastic 团队 提供 的 不 同类 型 的 Beats 组 件 。 在 这 一 节 中 ,将 学 习 这 些 
Beats 组 件 并 了 解 它 们 的 特性 ,学 习 如 何 设置 它们 ,以 及 如 何 根据 各 种 配置 选项 来 配置 
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Beats 组 件 。 本 节 将 提供 详细 了 解 Beats 组 件 所 需 的 必要 信息 。 
5.5.1 了 解 Filebeat 


如 前 面 所 讨论 的 那样 , Filebeat 是 一 个 开源 的 日 志 传 输 工 具 , 它 的 灵感 来 自 于 
Logstash-forwarder 项 目 , 它 也 是 基于 Logstash-forwarder 的 源 代 码 开 发 的 。Filebeat 用 于 
监控 日 志 信息 (文件 或 目录 ) 并 将 那些 日 志 传 送 到 Logstash 中 进一步 处 理 ,或 传输 到 
Elasticsearch 中 为 这 些 数据 创建 索引 。 

让 我 们 借助 Filebeat 的 架构 图 来 了 解 它 是 如 何 工作 的 ,如 下 图 所 示 。 
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链接 : https://www. elastic. co/guide/en/beats/filebeat/5. 1/filebeat-overview. html。 
在 上 图 中 ,需要 理解 很 多 新 的 术语 ,如 Prospector、Harvester 和 Spooler。 下 面 让 我 们 试 
着 解释 这 些 术语 及 其 含义 : 
。 Prospector: 这 里 包含 了 所 有 要 被 读 取 的 日 志 存 储 路 径 列 表 。 这 些 路 径 是 使 用 配置 
文件 配置 的 。 
。 Harvester: 当日 志 信 息 被 Prospector 获取 时 .这 一 功能 将 被 Filebeat 启动 。 
Harvester 的 作用 是 读 取 设置 并 检测 日 志文 件 中 出 现 的 新 内 容 . 然 后 收集 这 些 内 容 
并 发 送 到 Spooler。 
。 Spooler: 负责 从 Harvester 接收 输入 信息 。Spooler 处 于 核心 位 置 ,其 中 所 有 日 志 信 
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息 都 在 这 里 累积 和 聚合 。 经 过 聚合 的 数据 将 会 依照 配置 成 为 Filebeat 组 件 的 输出 。 
每 当 Filebeat 启动 时 , 它 创 建 一 个 或 多 个 Prospector, 然 后 开始 寻找 路 径 中 指定 的 日 志 
文件 。 它 在 指定 的 路 径 中 查找 所 有 的 位 置 来 读 取 数据 。 每 一 个 文件 被 Prospector 找到 之 
后 ,相应 的 Harvester 将 会 被 启动 。 每 个 Harvester 只 读 取 单 个 文件 的 内 容 。 如 果 找 到 多 个 
文件 , 则 启动 多 个 Harvester。 之 后 每 一 个 Harvester 对 相关 联 的 文件 进行 读 取 ( 逐 行 读 
取 ) ,并 发 送 文件 内 容 到 Spooler。 接 着 ,Harvester 在 相关 联 的 日 志文 件 中 等 待 新 的 内 容 出 
现 ( 如 果 有 的 话 )。 一 旦 发 现 新 的 内 容 , 它 就 会 把 新 的 日 志文 件数 据 送 到 Spooler 中 。 
Spooler 负责 将 多 个 Harvester 中 的 数据 进行 聚合 ,经 过 聚合 的 数据 将 会 依照 配置 被 处 理 为 
Filebeat 的 输出 。 


人 Harvester 负责 文件 的 打开 和 关闭 。 同 样 ,如 果 一 个 文件 在 被 Harvester 读 取 的 


同时 被 删除 或 重 命名 ,Filebeat 就 会 将 其 所 在 磁盘 空间 保留 到 Harvester 读 取 后 关 
闭 为 止 。 





了 解 Filebeat 如 何 工 作 之 后 ,我 们 来 安装 和 使 用 Filebeat 组 件 。 

可 以 参阅 第 1 章 Elastic Stack 概述 中 的 安装 Filebeat 部 分 来 安装 Filebeat 。 

让 我 们 来 看 看 Filebeat 的 配置 文件 来 了 解 和 使 用 Filebeat 组 件 不 同 部 分 的 配置 。 

Filebeat. yml 文件 的 内 容 分 为 以 下 几 个 部 分 : 

»。 Filebeat Prospectors; 

。 Filebeat Global Options; 
。 Processors Configuration; 
。 Output Configuration; 

。 Paths Configuration; 

。 Logging Configuration 。 

Filebeat Prospectors 这 一 部 分 列 出 了 依照 配置 信息 来 获取 数据 的 Prospectors 列表 。 
Filebeat Global Options 包含 Filebeats 中 常用 的 属性 。Processor Configuration 中 包含 所 
有 与 处 理 器 相关 的 属性 。Output Configuration 包含 将 数据 从 Beats 组 件 输出 到 多 种 可 用 
组 件 的 配置 信息 ,输出 的 组 件 可 以 选择 Elasticsearch、 Logstash、Kafka、Redis、 File 和 
Console 等 。Paths 部 分 提供 默认 的 Filebeat 安装 路 径 的 配置 信息 。Logging Configuration 
部 分 提供 了 多 种 设置 项 来 获取 日 志 级 信息 ,这些 信息 可 以 用 来 调试 程序 。 

我 们 来 探讨 上 面 几 节 中 提 到 的 配置 属性 。 


5.5.1.1 Filebeat Prospectors 配置 


以 下 示例 配置 文件 包含 许多 属性 。 让 我 们 看 看 其 中 的 一 部 分 : 
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filebeat.prospectors: 
-input type: log 
paths: 
-/var/log/* .1og 
#encoding: plain 
#exclude lines: ["^DBG"] 
#include lines: ["^ERR", "^WARN"] 
#document type: log 
#scan frequency: 10s 


#max bytes: 10485760 


人 @ 捧 认 情 况 下 ,在 filebeat. full. yml 配置 文件 中 ,所 有 以 # 开 头 的 属性 都 会 包含 固 


定 的 预 设 值 。 如 果 想 修改 属性 值 , 可 去 掉 属 性 名 称 前 面 的 # 号 并 设置 属性 值 。 





下 面 解释 每 个 属性 的 含义 ,这 样 可 以 很 容易 熟悉 这 些 属性 : 

。 input_type: 指定 输入 数据 以 何 种 方式 被 读 取 。 它 被 用 来 指定 将 事件 发 布 到 
Elasticsearch 或 Logstash 的 输入 类 型 。 这 项 属性 包含 log( 读 取 日 志文 件 的 每 一 
行 ) 和 stdin( 读 取 标 准 输入 ) 两 种 值 。 它 的 默认 值 是 log。 

。 paths: Filebeat 最 初 需要 一 个 路 径 , 并 在 该 路 径 下 搜索 日 志文 件 ,其 中 每 一 条 路 径 
都 作为 一 个 搜索 日 志文 件 的 Prospector。 对 于 每 一 个 被 找到 的 日 志文 件 ， 
Prospector 都 会 创建 一 个 Harvester 从 文件 中 读 取 数 据 。 在 paths 属性 中 设置 的 路 
径 定 义 了 Filebeat 搜索 . log 日 志文 件 的 目录 。 如 果 要 指定 多 个 目录 , 则 只 需 在 新 一 
行 中 添加 一 个 “- ”号 ,后面 跟 另 一 个 目录 的 名 称 即 可 。 每 一 行 都 可 以 指定 一 个 单独 
的 路 径 。 

。 encoding: Filebeat 使 用 的 文件 编码 。 它 用 来 读 取 包含 国际 字符 的 文件 。 这 里 使 用 
的 编码 名 称 是 W3C( 万 维 网 联盟 ) 推 荐 的 。 可 以 指定 的 编码 有 UTF-8、BIG5 ,latinl、 
plain 等 。 

。 exclude_lines: 指定 文件 中 Filebeat 要 忽略 的 行 ,可 以 使 用 正则 表达 式 来 指定 。 文 
件 的 内 容 也 可 以 指定 多 行 , 多 行 信息 在 被 exclude_lines 过 滤 之 前 会 被 合并 为 单行 。 
在 配置 文件 中 ,如 果 正 则 表达 式 的 值 设 定 为 "ADBG”, 那 么 Filebeat 就 会 忽略 以 字符 
串 "DBG" 开 头 的 所 有 行 。 

。 include_lines: 指定 文件 中 Filebeat 要 处 理 的 行 ,可 以 使 用 正则 表达 式 来 指定 。 文 件 
的 内 容 也 可 以 指定 多 行 ,多 行 信息 在 被 exclude_lines 过 滤 之 前 会 被 合并 为 单行 。 在 
配置 文件 中 ,如 果 正 则 表达 式 的 值 设 定 为 ["^ERR","^WARN"], 那 么 Filebeat 就 
会 只 处 理 以 字符 串 "ERR" 或 "WARN" 开 头 的 行 。 
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QO 在 Filebeat 中 总 是 先 执行 include_lines, 之 后 再 执行 exclude_lines。 











。 document_type: 如 果 将 数据 输出 到 Elasticsearch, 那 么 这 项 属性 用 来 指定 索引 的 类 
型 。 这 里 指定 的 属性 值 将 会 成 为 索引 中 类 型 的 名 称 。 它 的 默认 值 是 日 志 log。 

。 scan_frequency: 指定 Prospector 监测 新 文件 出 现 的 时 间 间 隔 , 以 及 Harvester 监测 
文件 中 新 内 容 出 现 的 时 间 间 隔 。 设 置 这 项 属性 之 后 ,指定 的 目录 和 子 目 录 中 任何 新 
创建 的 文件 都 会 被 扫描 。 它 的 默认 值 是 10s。 

。 max_bytes: 指定 Filebeat 能 够 接收 的 单个 事件 日 志 的 最 大 字 节 数 。 它 的 默认 值 被 
指定 为 10485760, 也 就 是 10 兆 字 节 。 如 果 任 何 一 个 事件 日 志 超 过 了 指定 的 字 节 数 ， 
那么 多 出 的 字 节 数 将 会 被 丢弃 ,从 而 不 会 被 Filebeat 获取 。 


5.5.1.2 processors 配置 


Libbeat 库 为 processors 提供 了 一 个 通用 平台 .可 以 在 多 种 Beats 组 件 中 无 缝 使 用 。 
processors 并 不 是 什么 新 东西 , 它 是 附加 了 新 功能 的 过 滤器 。 

processors 可 用 于 : 

。 减少 输出 数据 中 导出 字段 的 数量 

。 使 用 元 数据 和 附加 处 理 功 能 优化 事件 。 

每 个 processor 都 被 赋予 一 个 事件 作为 输入 ,接着 执行 processor 的 条 件 (condition ) 或 
操作 (action) ,最 后 将 处 理 过 的 事件 作为 输出 。 多 个 processor 也 可 以 被 这 样 定义 和 使 用 。 


0 Filters 已 改名 为 processors, 这 里 的 processors 在 功能 上 与 Elasticsearch 中 的 


Ingest Node processors 是 不 同 的 。 





要 定义 一 个 processors ,需要 指定 processor 的 名 称 \ 它 的 条 件 ( 该 项 为 可 选项 ), 以 及 要 
在 processors 中 应 用 的 参数 ,语法 是 : 


processors: 
-<processor name>: 
when: 
<condition> 


<parameters> 





全 可 以 指定 一 个 或 多 个 processors, 程序 将 按照 它们 在 配置 文件 中 定义 的 顺序 
执行 。 











processors 支持 的 条 件 有 : 
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equals: 检查 值 是 否 与 指定 的 字段 值 匹配 。 它 只 接受 整数 或 字符 串 值 。 
。 contains: 检查 该 值 是 否 为 前 面 所 指定 字段 的 一 部 分 。 它 只 接受 字符 串 字 段 或 字符 
串 字 段 数组 中 的 字符 串 值 。 
。 regexp: 检查 正则 表达 式 是 否 为 指定 字段 的 一 部 分 。 它 只 接受 字符 串 值 。 
。 range: 检查 字段 是 否 在 指定 值 范 围 内 。 它 支持 LT( 小 于 ) .GT( 大 于 ) .LTE( 小 于 等 
于 ) 和 GTE( 大 于 等 于 ) 的 条 件 。 它 只 接受 整数 或 浮 点 值 。 
这 里 还 有 一 些 操作 符 使 用 了 之 前 章节 中 提 到 的 条 件 , 即 OR、AND 和 NOT 操作 符 。 它 
们 用 于 一 次 指定 多 个 条 件 的 情况 。 
支持 的 processors 有 : 
。 add_cloud_metadata: 从 支持 的 云端 服务 提供 商 (EC2、Digital Ocean 和 GCE) 添 加 
元 数据 信息 。 语 法 如 下 : 


processors: 


-add cloud metadata: 
。 decode_json_fields: 解 码 JSON 字符 串 。 语 法 如 下 : 


processors: 
-decode json fields: 
fields: ["fieldl", "field2", ...] 
process array: false 


max depth: 1 


在 这 里 ,fields 是 必 选 设置 ,其 余 是 可 选 的 。 
。 drop_event: 删除 符合 条 件 的 事件 。 它 在 执行 时 需要 一 个 条 件 , 否 则 所 有 事件 都 将 
被 删除 。 语 法 如 下 : 


processors: 
-drop event: 
when: 


condition 


。 drop_fields: 删除 事件 中 符合 条 件 的 字段 。 它 在 执行 时 如 果 缺 少 条 件 , 那 么 所 有 字 
段 都 将 被 删除 。 语 法 如 下 : 


processors: 
-drop fields: 
when: 
condition 


fields: ["field1", "field2", ...] 
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全 即使 在 字段 fields 下 指定 ,时 间 改 @timestamp 和 类 型 的 字段 也 不 能 被 删除 。 











。 include fields: 在 条 件 匹配 时 容纳 事件 中 的 字段 。 如 果 缺 少 条件 , 则 只 导出 指定 的 
字段 。 可 以 在 processors 部 分 指定 一 个 或 多 个 include_fields。 语 法 如 下 : 


processors: 
-include fields: 
when: 
condition 


fields: ["field1l", "field2", ...] 


全 即使 在 字段 中 没有 指定 ,也 会 包含 时 间 蕉 @timestamp 和 类 型 type 字段 。 





5.5.1.3 output 配置 


output 配置 部 分 包含 将 输出 数据 发 送 到 输出 组 件 的 选项 ,可 以 指定 一 个 或 多 个 输出 组 
件 。 正 如 前 面 提 到 的 ,可 以 发 送 输出 的 数据 到 Elasticsearch、Logstash、Kafka、Redis、File 和 
Console 中 。 
1. 配置 Elasticsearch 的 output 
这 里 是 一 些 Elasticsearch 输出 选项 : 
output .elasticsearch: 
#enabled: true 
hosts: ["localhost:9200"] 
#index: "filebeat-% {+yyyy.MM.dd}" 
#proxy_ url: http://proxy:3128 
#max retries: 3 
让 我 们 尝试 解释 每 个 属性 的 含义 ,这 样 可 以 很 容易 熟悉 这 些 属性 : 
。 enabled : 启用 或 禁用 指定 的 输出 模块 。 
。 hosts: 指定 要 连接 的 Elasticsearch 节点 地 址 ,可 以 根据 需要 连接 到 一 个 或 多 个 
Elasticsearch 节点 。 日 志 事 件 在 多 个 Elasticsearch 节点 中 是 以 轮转 的 顺序 分 布 的 。 
每 个 Elasticsearch 节点 可 以 定义 为 "IP 地 址 : 端口 ?的 格式 。 如 果 端 口 未 定义 , 则 默 
认 情 况 下 该 端口 设 为 9200 使 用 。 可 以 以 逗号 分 隔 的 方式 来 定义 多 个 Elasticsearch 
。 index: 指定 索引 名 称 , Filebeat 会 将 事件 信息 写 入 到 Elasticsearch 指定 的 索引 中 。 
默认 情况 下 ,索引 名 称 是 [filebeat-]YYYY. MM. DD。 
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。 proxy_url: 指定 连接 到 Elasticsearch 节点 的 代理 URL 地 址 。 
。 max_retries: 指定 一 个 事件 发 送 失 败 之 前 重 试 的 最 大 次 数 。 一 旦 事件 发 送 失 败 ,这 
个 事件 信息 就 会 被 删除 。 








全 有 一 些 Beats 组 件 , 如 Filebeat, 会 忽略 max_retries 的 设置 ,并 且 会 一 直 重 试 , 直 
到 事件 信息 发 送 成 功 。 











2. 配置 Logstash 的 output 
Logstash 的 一 些 输出 设置 如 以 下 部 分 所 示 : 


output .1ogstash : 
#enabled: true 
hosts: ["localhost:5044"] 
#index: "filebeat" 
#1loadbalance: true 


#worker: 1 


下 面 解释 每 个 属性 的 含义 ,这 样 可 以 很 容易 熟悉 这 些 属性 : 

。 hosts: 指定 要 连接 的 Logstash 服务 器 地 址 。 如 果 端 口 未 定义 , 则 默认 情况 下 该 端 
口 设 为 5044 使 用 。 可 以 以 逗号 分 隔 的 方式 来 定义 多 个 Logstash 节点 。 

。 index: 指定 索引 名 称 , Filebeat 会 将 事件 信息 写 入 到 指定 的 索引 中 。 默 认 情 况 下 ， 
索引 名 称 是 filebeat 。 

。 loadbalance: 在 多 个 Logstash 服务 器 主机 之 间 执 行 负载 均衡 。 如 果 将 其 设 为 false， 

网 络 中 同时 有 多 台 Logstash 服务 器 主机 时 , 则 数据 将 会 随机 发 送 给 其 中 一 台 

Logstash 服务 器 主机 。 

worker: 指定 要 发 送 事件 到 Logstash 的 进程 数量 。 当 负载 平衡 被 设 为 true 时 ,最 

好 修改 这 个 属性 的 值 。 


3. 配置 Logging 
Logging 配置 的 一 些 设置 如 以 下 部 分 所 示 : 


#1logging.level: info 
#1logging.to syslog: true 
logging.to files: true 
logging.files: 

#path: /var/log/filebeat 


#name: filebeat 


下 面 解释 每 个 属性 的 含义 ,这 样 可 以 很 容易 熟悉 这 些 属性 : 
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logging. level: 在 记录 日 志 时 指定 日 志 级 别 。 它 可 以 包含 诸如 critical、 error、 
warning info 和 debug 等 值 。 默 认 情 况 下 它 被 设置 为 info。 

logging. to_syslog: 设置 为 true 时 ,用 来 传输 所 有 输出 的 日 志 信息 到 系统 日 志 中 。 
默认 情况 下 被 设置 为 false。 

logging. to_files: 将 所 有 输出 的 日 志 写 人 到 文件 。 要 启用 记录 日 志 到 文件 的 功能 ， 
其 值 应 指定 为 true。 

path: 指定 存储 输出 的 日 志文 件 的 目录 位 置 。 

name: 指定 存储 输出 日 志 的 文件 名 称 。 


5.5.2 理解 Metricbeat 


正如 前 面 所 讨论 的 ,Metricbeat 是 一 个 开源 的 轻 量 级 数据 传输 工具 。 它 可 以 读 取 整个 
系统 中 的 统计 信息 ,并 提供 进程 级 信息 ,如 系统 中 每 个 进程 的 CPU、 内 存 使 用 量 , 以 及 系统 
中 运行 的 各 种 服务 的 信息 。Metricbeat 组 件 负 责 收集 所 有 统计 数据 并 发 送 到 多 种 组 件 中 ， 
如 Elasticsearch、Logstash、Kafka、 Redis,File 和 Console。 

Metricbeat 通过 监控 服务 器 并 收集 系统 以 及 支持 的 服务 程序 中 的 信息 ,提供 大 量 的 统 
计数 据 和 指标 。 

所 支持 的 部 分 服务 如 下 所 示 : 


Apache; 
Couchbase; 
Docker; 
Kafka; 
MySQL; 
Nginx; 
PostgreSQL; 
Redis; 
System 


Zookeeper。 


让 我 们 来 学 习 系 统 模块 System Module. 使 用 Metricbeat 可 以 很 容易 得 到 这 些 指标 。 


5.5.2.1 系统 模块 


系统 模块 (system module) 包 含 各 种 统计 数据 的 指标 集 (metricset) ,它们 被 分 为 多 个 不 
同 的 部 分 ,如 CPU 级 统计 数据 文件 级 统计 数据 内存 级 统计 数据 网络 级 统计 数据 和 进程 
级 统计 数据 等 。 


第 5 章 使 用 Beats 


eS 
11731 
We 





让 我 们 来 探讨 系统 模块 的 各 种 指标 集 。 

1. CPU 指标 集 

这 个 指标 集 包 含 CPU 的 以 下 性 能 指标 : 

。 空闲 CPU 时间 的 百分比 和 数量 ; 

。 等 待 I/O 磁盘 操作 所 花费 的 CPU 时 间 百 分 比 和 数量 ; 

。 处 理 硬件 中 断 的 CPU 时 间 百 分 比 和 数量 ; 

。 在 低 优先 级 进程 上 花费 的 CPU 时 间 百 分 比 和 数量 ; 

。 处 理 软件 中 断 所 花费 的 CPU 时 间 百 分 比 和 数量 ; 

。 另 一 个 进程 正在 由 虚拟 机 管理 程序 ( 仅 适 用 于 UNIX 系统 ) 运 行 服 务 时 ,虚拟 CPU 
等 待 时 间 的 百分比 和 数量 ; 

。 内 核 空间 中 CPU 时 间 的 百分比 和 数量 ; 

。 用 户 空间 的 CPU 时 间 百 分 比 和 数量 。 

这 个 指标 集 可 用 于 Windows、Linux、FreeBSD、OpenBSD 和 Darwin OS 等 操作 系统 。 





全 核心 的 指标 集 在 每 个 核心 级 别提 供 了 相似 的 CPU 信息 。 





2. 磁盘 I/0 指标 集 

这 个 指标 集 包含 磁盘 W/O 的 以 下 指标 : 

。 执行 I/O 操作 所 需 的 总 毫秒 数 ， 

。 磁盘 名 称 ; 

。 磁盘 成 功 读 取 的 总 字 节 数 (在 Linux 上 它 相当 于 读 取 扇 区 的 数量 X512, 其 中 512 是 
扇 区 大 小 ); 

。 成功 完 成 读 取 的 总 数 ; 

所 有 读 操作 所 花费 的 总 毫秒 数 ; 

成 功 写 人 磁盘 的 总 字 节 数 (在 Linux 上 它 相 当 于 读 取 扇 区 的 数量 X512, 其 中 512 是 

扁 区 大 小 ); 

。 成 功 完 成 写 人 的 总 数 ; 

。 所 有 写 人 操作 所 花费 的 总 毫秒 数 。 

这 指标 集 可 以 在 Linux、Windows、 和 FreeBSD(AMD64) 系 统 上 使 用 。 


3. 文件 系统 指标 集 

这 个 指标 集 包 含 文件 系统 的 以 下 统计 指标 : 
。 普通 用 户 可 用 的 磁盘 空间 ; 

。 磁盘 名 称 ; 
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。 文件 系统 中 存在 的 文件 节点 总 数 ; 

。 可 用 的 总 磁盘 空间 ; 

。 文件 系统 上 存在 的 所 有 文件 节点 总 数 ; 

。 磁盘 的 挂 载 位 置 ; 

。 已 经 使 用 的 磁盘 空间 及 其 百分比 。 

这 个 指标 集 可 用 于 Linux、Windows、OpenBSD、FreeBSD 和 Darwin OS 等 操作 系统 。 


4. FsStat 指标 集 

这 个 指标 集 涵 盖 了 挂 载 文件 系统 统计 数据 的 以 下 指标 : 

。 当前 文件 系统 计数 ; 

。 当前 文件 总 数 ; 

。 空闲 磁盘 空间 总 量 ; 

。 已 使 用 磁盘 空间 总 量 ; 

。 可 用 磁盘 空间 总 量 ( 空 闲 十 已 使 用 ) 。 

这 个 指标 集 可 用 于 Linux、Windows、OpenBSD、FreeBSD 和 Darwin OS 等 操作 系统 。 


5. 负载 指标 集 

这 个 指标 集 包 括 提供 负载 统计 的 以 下 指标 : 

。 最 后 1 分 钟 的 平均 系统 负载 ; 

。 最 后 15 分 钟 的 平均 系统 负载 ; 

。 最 后 5 分 钟 的 平均 系统 负载 ; 

。 最 后 1 分 钟 通过 内 核 数 归 一 化 的 平均 系统 负载 ; 

。 最 后 15 分 钟 通过 内 核 数 归 一 化 的 平均 系统 负载 ; 

。 最 后 5 分 钟 通过 内 核 数 归 一 化 的 平均 系统 负载 。 

这 个 指标 集 可 用 于 Linux`OpenBSD FreeBSD 和 Darwin OS 等 操作 系统 。 


6. 内 存 指 标 集 

这 个 指标 集 涵盖 了 内 存 统计 数据 的 以 下 指标 : 
。 实际 空闲 内 存 容量 ; 

。 实际 已 使 用 内 存 的 字 节 数 及 其 百分比 ， 
"空闲 内 存 总 量 ; 

。 可 用 的 交换 空间 ?容量 ; 


Q@ 译 者 注 : 当 操 作 系统 中 的 物理 内 存 消耗 歼 尽 时 ,系统 会 将 内 存 中 不 常用 的 一 部 分 数据 换 出 到 磁盘 中 ,以 腾 出 空 
间 来 运行 频繁 使 用 的 程序 。 这 样 的 技术 即 为 交换 空间 (swap memory) ,在 Windows 系统 中 称 为 虚拟 内 存 (virtual 


memory)。 


> 
第 5 章 使 用 Beats ye 





。 交换 空间 总 量 ; 

。 已 使 用 交换 空间 字 节 数 及 其 百分比 ; 

。 内 存 总 容量 ; 

。 已 使 用 内 存 的 字 节 数 及 其 百分比 。 

这 个 指标 集 可 用 于 Linux、Windows、OpenBSD、FreeBSD 和 Darwin OS 等 操作 系统 。 





人 @ 实 际 的 空 内 存 容量 取决 于 不 同 的 操作 系统 。 如 Linux 系统 的 内 存 容量 由 空闲 
内 存 、 高 速 缓 存 和 缓冲 区 组 成 ;OSX 系统 的 内 存 容量 由 空 闪 内存 和 交互 内 存 组 成 ; 
Windows 系统 的 内 存 容 量 等 于 空闲 内 存 总 量 。 





7. 网 络 指标 集 

这 个 指标 集 涵 盖 了 网 络 统计 数据 的 以 下 指标 : 

。 接收 和 发 送 的 字 节 总 数 ; 

。 被 删除 的 传人 数据 包 的 总 数 ; 

。 被 删除 的 传 出 数据 包 总 数 ; 

。 接收 和 发 送 时 的 错误 总 数 ; 

。 接收 和 发 送 的 数据 包 总 数 ; 

。 接口 名 称 。 

这 个 指标 集 可 用 于 Linux、Windows、FreeBSD 和 Darwin OS 等 操作 系统 。 


8. 进程 指标 集 

这 个 指标 集 涵盖 了 进程 级 统计 数据 的 以 下 指标 : 

。 命令 行 中 用 于 启动 进程 的 进程 ; 

。 CPU 启动 进程 的 时 间 ; 

。 进程 所 花费 的 CPU 时 间 百 分 比 ( 类 似 于 top 命令 返回 结果 中 的 %CPU 指标 ); 
。 由 进程 启动 文件 描述 符 File-Descriptors 后 ,其 数量 的 软 、 硬 限制 ; 

。 进程 启动 的 文件 描述 符 File-Descriptors 总 数 ; 

。 RAM 内 存 中 进程 占用 的 内 存 百分比 和 总 数 ; 

。 进程 使 用 的 共享 内 存 和 虚拟 内 存 总 容量 ; 

。 进程 名 称 ; 

， 进 程 组 ID、 父 进程 ID 和 进程 ID; 

。 进程 状态 ; 

。 启动 进程 的 用 户 名 (如 果 用 户 名 不 存在 ,就 使 用 它 的 UID)。 

这 个 指标 集 可 用 于 Linux、Windows、FreeBSD 和 Darwin OS 等 操作 系统 。 
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了 解 Metricbeat 提供 的 统计 信息 之 后 ,下 面 介绍 如 何 安 装 和 使 用 Metricbeat 
组 件 。 


5.5.2.2 Metricbeat 的 安装 


在 这 一 节 中 ,分 别 在 Ubuntu 和 Windows 系统 中 完成 Metricbeat 5. 1.1 的 安装 。 
要 在 Ubuntu 中 安装 Metricbeat ,请 参照 以 下 步骤 : 
(1) Metricbeat 安装 前 ,请 检查 系统 是 32 位 还 是 64 位 。 可 以 使 用 下 面 的 命令 : 


uname -m 
如 果 命 令 返回 x86_64, 这 意味 着 它 是 64 位 系统 ;如 果 命 令 返 回 i686 ,这 意味 着 它 是 32 
位 系统 。 


(2) 使 用 终端 下 载 Metricbeat 5. 1. 1 的 Debian 软件 包 。 
对 于 64 位 系统 : 


wget https://artifacts.elastic.co /downloads/beats/metricbeat/metricbeat -5.1.1 
-amd64.deb 


对 于 32 位 系统 : 


wget https://artifacts.elastic.co/downloads /beats/metricbeat/metricbeat-5.1.1 
-i386.deb 


(3) 使 用 下 面 的 命令 来 安装 debian 软件 包 。 
对 于 64 位 系统 : 
sudo dpkg -i metricbeat-5.1.1-amd64.deb 
对 于 32 位 系统 : 


sudo dpkg -i metricbeat-5.1.1-i386.deb 





@@ Metricbeat 将 被 安装 在 /usr/share/metricbeat 目录 下 ,配置 文件 将 保存 在 /etc 
/metricbeat 目录 下 ,init 脚本 将 保存 在 /etc/init. d/metricbeat 目录 下 ,日 志文 件 将 
保存 在 /var/log/messages/metricbeat 目录 下 。 








(4) 配置 Metricbeat 在 操作 系统 启动 时 自动 运行 。 如 果 正 在 使 用 SysV init ,那么 运行 
下 面 的 命令 : 
sudo update- rc.d metricbeat defaults 95 10 


上 面 的 命令 将 打印 在 屏幕 上 一 一 添加 /etc/init. d/metricbeat 随 系统 启动 的 设置 。 
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使 用 以 下 命令 来 检查 Metricbeat 的 状态 : 

sudo service metricbeat status 

使 用 以 下 命令 将 Metricbeat 作为 一 个 服务 运行 : 
sudo service metricbeat start 

Metricbeat 命令 的 用 法 如 下 : 


sudo service metricbeat {start|lstoplstatus|restart|force- reload} 





Qu 果 将 Metricbeat 作为 服务 来 运行 ,将 运行 /etc/metricbeat/metricbeat. yml 配 
置 文件 。 


例如 果 想 安装 其 他 版 本 的 Metricbeat 组 件 ,可 以 访问 Elastic 团队 的 下 载 页 面 ,复制 
debian 包 的 链接 并 使 用 wget 命令 来 获取 安装 包 。 在 Windows 操作 系统 上 安装 
Metricbeat 的 方法 详 见 https://github. com/kravigupta/mastering-elastic-stack- 


code-files/wiki/appendix。 








5.5.3 理解 Packetbeat 


Packetbeat 是 平台 中 主要 的 Beats 组 件 , 它 为 Beats 平台 的 开发 铺垫 了 道路 。 由 于 
Packetbeat 超 强 的 流行 程度 ,在 Elastic 收购 Packetbeat 之 后 , Beats 作为 一 个 概念 化 的 平台 
出 现 。 正 如 前 面 所 讨论 的 ,Packetbeat 是 开源 的 轻 量 级 数据 包 分 析 器 , 它 用 来 监视 网 络 上 
的 各 种 系统 和 应 用 程序 。Packetbeat 可 以 在 不 同 的 应 用 服务 器 之 间 抓 取 网 络 级 别 的 
信息 

Packetbeat 获取 不 同 的 应 hea nh 然后 解析 应 用 服务 器 使 用 
的 协议 ,将 响应 信息 与 请 求 信 息 联合 对 应 ,这 样 所 有 的 信息 都 记录 在 一 个 事务 中 。 
Packetbeat 可 以 提供 所 需 的 信息 ,例如 应 用 程序 因 漏 洞 而 发 生 的 错误 ,或 与 性 能 相关 的 
问题 。 

此 外 , 它 使 故障 诊断 更 加 容易 ,并 加 快 了 修复 过 程 , 因 为 从 存储 的 信息 那里 可 以 很 容易 
分 析 问 题 的 根本 原因 。 

Packetbeat 支持 的 协议 如 下 : 

“ HETPY 

。 MySQL; 

。 MongoDB:; 
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。 Redis; 

。 ICMP; 

。 DNS; 

。 PostgreSQL; 

。 Thrift; 

。 Memcache。 

解析 协议 和 消息 之 后 ,Packetbeat 将 请 求 与 响应 关联 起 来 ,这 里 的 响应 即 为 我 们 熟悉 的 
事务 transaction。 如 果 输 出 到 Elasticsearch ,那么 每 一 个 事务 都 以 JSON 文档 的 形式 存储 
在 Elasticsearch 中 。Packetbeat 使 用 Elasticsearch 和 Kibana 来 提供 网 络 流通 量 信息 。 在 
这 种 情况 下 ,甚至 可 以 使 用 Filebeat 分 析 存 储 在 Logstash 中 的 多 种 日 志文 件 , 使 用 它们 在 
同一 个 系统 上 进行 网 络 流量 分 析 和 日 志文 件 分 析 。 

下 面 在 Ubuntu 14. 04 系统 中 完成 Packetbeat 5. 1. 1 的 安装 。 

要 在 Ubuntu 中 安装 Packetbeat ,请 参照 以 下 步骤 ， 

(1) Packetbeat 安装 前 ,请 检查 系统 是 32 位 还 是 64 位 。 可 以 使 用 下 面 的 命令 : 


uname -m 


如 果 命 令 返回 的 信息 是 x86_64, 这 意味 着 它 是 64 位 系统 。 另 外 ,如 果 命 令 返 回 i686， 
这 意味 着 它 是 一 个 32 位 系统 。 

(2) 使 用 终端 下 载 Packetbeat 5.1. 1 的 Debian 软件 包 。 

对 于 64 位 系统 : 


wget https://artifacts.elastic.co/ downloads/beats/packetbeat/ Packetbeat-5.1.1 
-amd64.deb 


对 于 32 位 系统 : 


wget https://artifacts.elastic.co/ downloads/beats/packetbeat/ packetbeat-5.1.1 
-i386.deb 


(3) 使 用 下 面 的 命令 来 安装 debian 软件 包 : 
对 于 64 位 系统 : 


sudo dpkg -i packetbeat-5.1.1-amd64.deb 
对 于 32 位 系统 : 


sudo dpkg -i packetbeat-5.1.1-i386.deb 


下 面 
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全 Packetbeat 将 被 安装 在 /usr/share/packetbeat 目录 下 ,配置 文件 将 保存 在 /etc 
/packetbeat 目录 下 ,组 件 的 初始 化 脚本 将 保存 在 /etc/init. d/packetbeat 目录 下 ,日 
志文 件 将 保存 在 /var/log/packetbeat 目录 下 。 








(4) 配置 Packetbeat 在 操作 系统 启动 时 自动 运行 。 如 果 正 在 使 用 SysV init, 那 么 运行 
的 命令 : 





sudo update- rc.d packetbeat defaults 95 10 


上 面 的 命令 将 打印 在 屏幕 上 一 一 添加 /etc/init. d/packetbeat 随 系统 启动 的 设置 。 
使 用 以 下 命令 来 检查 Packetbeat 的 状态 : 


sudo service packetbeat status 

使 用 以 下 命令 将 Packetbeat 作为 一 个 服务 运行 : 
sudo service packetbeat start 

Packetbeat 命令 的 用 法 如 下 : 


sudo service packetbeat{start|stoplstatus|restart|force-reload} 


人 如 果 将 Packetbeat 作为 服务 来 运行 , 它 将 运行 /etc/packetbeat/packetbeat. yml 
配置 文件 。 





全 如 果 想 安装 其 他 版 本 的 Packetbeat 组 件 ,可 以 访问 Elastic 团队 的 下 载 页 面 , 复 
制 debian 包 的 链接 并 使 用 wget 命令 来 获取 安装 包 。 在 Windows 操作 系统 上 安装 
Packetbeat 的 方法 详 见 https://github. com/kravigupta/mastering-elastic-stack- 
code-files/wiki/ Appendix。 











5.6 ”社区 开发 者 开 上 的 Beats 组 件 


由 于 Elastic Stack 的 各 类 组 件 都 是 开源 项 目的 一 部 分 ,Beats 已 经 被 开源 社区 接受 , 它 





正 积 极 促 进 不 同类 型 Beats 组 件 的 创建 。 社 区 开发 者 遵循 Beats 平台 开发 了 许多 新 的 Beats 
组 件 。 本 节 了 解 并 探讨 社区 开发 者 开发 的 Beats 组 件 ,完成 安装 ,并 了 解 为 Beats 组 件 提供 
的 配置 选项 


这 是 社区 开发 者 开发 的 Beats Th 提供 简单 而 实用 的 功能 。 这 个 Beats 组 件 提供 了 与 


Elasticsearch 集群 相关 的 信息 。 通过 使 用 API., 它 可 以 提 Elasticsearch 集群 、 
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Elasticsearch 节点 和 Elasticsearch 健康 程度 的 统计 数据 。 它 同时 也 需要 通过 Elasticsearch 
开放 的 API 接口 来 获取 Elasticsearch 集群 的 多 种 统计 信息 。 

下 面 让 我 们 来 安装 和 使 用 Elasticbeat 组 件 。 

1，Elasticbeat 组 件 的 安装 

在 这 一 节 中 ,将 在 Ubuntu 系统 中 完成 Elasticbeat 的 安装 。Elasticbeat 是 用 Go 语言 开 
发 的 ,这 种 语言 在 安装 和 使 用 Elasticbeat 时 都 需要 用 到 。 

要 在 Ubuntu 14. 04 系统 中 安装 Elasticbeat, 请 参照 以 下 步骤 : 

(1) 使 用 以 下 命令 下 载 Go 语言 包 : 

wget https://storage.googleapis.com/golang/go1.7.1.linux- amd64.tar.gz 

(2) 提取 压缩 包 中 的 内 容 并 移动 到 自 定义 位 置 如 /usr/local: 

tar -xvzf gol.7.1.1inux-amd64.tar.gz -C /usr/local/ 

使 用 sudo 访问 权限 来 执行 上 述 命令 。 

(3) 在 一 /. bashrc 文件 中 添加 下 面 与 GO 语言 有 关 的 环境 变量 : 

export GOROOT="/usr/local/go" 


exPort GOPATH="$ HOME/go" 
export PATH="$ GOROOT/bin:$ PATH" 


使 用 下 面 的 命令 使 bashrc 文件 中 的 配置 生效 : 
source ~/.bashrc 

(4) 使 用 以 下 命令 验证 Go 语言 是 否 已 安装 : 
go version 


该 命令 将 返回 Go 语言 的 版 本 : go version gol.7.1 linux/amd64。 
(5) 转 到 开发 平台 的 workspace 文件 夹 ,并 使 用 以 下 命令 创建 一 个 目录 , 
mkdir -P $GOPATH 


cd $GOPATH 
mkdir -p src/github.com/radoondas 


(6) 访问 Elasticbeat 的 远程 存储 库 ,并 使 用 以 下 命令 克隆 Elasticbeat 的 副本 : 


cd $GOPRATH/src/github .com/radoondas 
git clone https://github.com/radoondas/elasticbeat.git 
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人 如果 系 统 中 没有 安装 git, 请 使 用 以 下 命令 安装 : 


sudo apt-get install -y git 











(7) 通过 使 用 以 下 命令 编译 Elasticbeat: 

cd $GOPATH/src/github.com/radoondas/elasticbeat 

make 

如 果 在 运行 make 命令 后 遇 到 错误 ,请 确保 安装 的 版 本 高 于 1.5。 
(8) 使 用 下 面 的 命令 运行 Elasticbeat 


./elasticbeat -e -v -delasticbeat -c elasticbeat.yml 


如 果 Elasticbeat 无 法 运行 ,请 检查 elasticbeat. yml 配置 文件 。 如 果 没 有 设置 注释 , 则 
应 设置 好 注释 ,并 再 次 运行 。 

这 个 操作 将 成 功 运行 Elasticbeat ,组 件 将 开始 收集 有 关 Elasticsearch 节点 的 信息 ,并 依 
照 配置 文件 中 的 配置 信息 ,为 收集 到 的 数据 在 Elasticsearch 中 创建 索引 。 

在 Windows 操作 系统 上 安装 Elasticbeat 的 方法 详 见 https://github. com/ 


kravigupta/mastering-elastic-stack-code-files/ wiki/appendix。 


2.Elasticbeat 组 件 的 配置 
下 面 的 配置 示例 包含 以 下 属性 : 


input: 
period: 10 
urls: 
-http://127.0.0.1:9200/ 
stats: 
cluster: true 
nodes: true 


health: true 


让 我 们 尝试 解释 每 个 属性 的 含义 ,这 样 可 以 很 容易 熟悉 这 些 属性 : 

。 period: 指定 Elasticbeat 组 件 获取 信息 的 时 间 间 隔 ( 秒 )。 上 默认 情况 下 , 它 的 值 设 为 
10, 即 Elasticbeat 组 件 每 过 10 秒 就 会 读 一 次 统计 数据 。 

。 urls: 指定 Elasticsearch 的 服务 器 列表 中 的 URL ,Elasticbeat 组 件 需 要 从 这 些 地 址 
读 取 统计 数据 。 

。 cluster: 获取 与 Elasticsearch 集群 相关 的 统计 数据 ,可 以 使 用 API 中 的 _cluster/ 
Stats 来 获取 。 


A 
(182 1 精通 Elastic Stack 





。 nodes: 获取 与 该 节点 相关 的 统计 信息 ,可 以 使 用 Elasticsearch API 中 的 _nodes/ 
stats/process、jvm、os,fs,thread_pool\transport、http、breaker 和 script 来 获取 。 
health: 获取 与 集群 有 关 的 统计 信息 ,可 以 使 用 Elasticsearch API 中 的 _cluster/ 
health 来 获取 。 


5.7 Beats 在 Elastic Stack 中 的 实战 


在 了 解 了 各 种 Beats 组 件 、 它 们 的 功能 以 及 所 提供 的 信息 之 后 ,下 面 将 学 习 如 何 入 门 
Beats 组 件 ,以便 与 Elastic Stack 联合 使 用 。 我 们 将 介绍 以 下 案例 的 使 用 流程 : 

。 使 用 Metricbeat 直接 发 送 数据 到 Logstash 中 ,而 Logstash 会 处 理 日 志 并 存 入 

Elasticsearch, 这 样 ,数据 最 后 会 在 Kibana 中 执行 可 视 化 。 

。 使 用 Elasticbeat 为 数据 在 Elasticsearch 中 创建 索引 ,并 使 用 Kibana 进行 可 视 化 。 

在 本 节 中 ,将 了 解 如 何 简单 处 理 组 件 以 及 如 何 轻 松 地 将 多 个 组 件 连 接 起 来 。 本 节 的 日 
的 不 是 显示 Logstash 的 强大 的 处 理 能 力 , 或 者 Beats 组 件 如 何 优化 多 个 系统 间 的 性 能 ;而 
是 介绍 怎样 连接 多 个 组 件 , 使 数据 流 能 够 通过 每 一 个 组 件 ,我 们 可 以 将 Beats 组 件 接收 到 的 
输入 数据 与 Kibana 输出 的 可 视 化 信息 联系 起 来 。 


5.7.1 用 Logstash 和 Kibana 探索 Metricbeat 


正如 前 面 所 讨论 的 ,下 面 将 使 用 Metricbeat 收集 统计 数据 并 发 送 到 Logstash, 而 
Logstash 将 按 要 求解 析 日 志 并 将 解析 的 数据 存储 在 Elasticsearch 索引 中 。Kibana 将 使 用 
存储 在 Elasticsearch 中 的 数据 来 执行 可 视 化 ,并 使 用 一 个 已 创建 的 Metricbeat 面板 来 提供 
由 Beats Team 创建 的 常用 可 视 化 统计 图 表 。 我 们 尽量 简化 叙述 ,以 便 更 好 地 理解 本 节 中 的 
工作 步骤 。 

利用 Metricbeat 将 输出 数据 存 人 Logstash。 要 向 Logstash 发 送 输出 数据 ,需要 
Metricbeat 配置 文件 提供 的 Logstash 输出 配置 。 创 建 一 个 Logstash 配置 文件 , 接收 
Metricbeat 的 输入 ,并 将 输出 数据 存 人 Elasticsearch。 为 此 .需要 下 载 并 安装 为 Logstash 提 
供 的 beats Input 插件 (如 果 之 前 没有 安装 ) ,这样 Logstash 就 可 以 从 Metricbeat 读 取 输 入 
数据 了 。 

同时 ,我们 将 对 Logstash 的 Output 插件 进行 配置 ,为 数据 在 Elasticsearch 中 创建 索 
引 ; 之 后 ,将 使 用 Elastic 团队 提供 的 Beats 面板 ,导入 Kibana 中 已 保存 的 搜索 结果 、 可 视 化 
统计 图 表 、 索 引 和 面板 。 











人 @ 请 确保 系统 中 已 安装 Metricbeat 组 件 。 
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5.7.1.1 步骤 1 一 一 配置 Metricbeat 发 送 数据 到 Logstash 


在 这 一 步骤 中 ,将 名 为 metricbeat. full. yml 的 Metricbeat 配置 文件 修改 为 metricbeat. 
yml, 此 配置 文件 保存 在 /etc/metricbeat 目录 中 。 将 输出 指定 为 Logstash 和 Console( 控 制 台 ) 。 

指定 控制 台 输 出 将 有 助 于 了 解 Beats 组 件 能 和 否 将 数据 发 送 到 Logstash。 默 认 情 况 下 ， 
Logstash 配置 主机 为 localhost ,端口 为 5044 。 

配置 文件 需要 修改 ,注释 掉 elasticsearch 的 输出 配置 ,并 将 Logstash 的 输出 配置 取消 
注释 。 同 时 ,控制 台 输 出 的 配置 将 与 带 有 良好 缩 进 格式 的 输出 设置 一 起 被 取消 注释 。 如 果 
去 掉 所 有 的 注释 以 及 换行 符 的 文件 ,配置 文件 的 内 容 会 像 下 面 这 样 : 








metricbeat .modules : 
-module: System 
metricsets: 
-cpu 
-load 
-core 
-diskio 
-filesystem 
-fsstat 
-memory 
-network 
-process 
enabled: true 
period: 2s 
processes: ['.*'] 
output .logstash: 
enabled: true 
hosts: ["localhost:5044"] 
output.console: 
enabled: true 
pretty: true 
logging.level: info 
logging.to files: true 
logging.files: 
rotateeverybytes: 10485760 #=10MB 


使 用 下 面 的 命令 运行 Metricbeat: 


sudo /usr/share/metricbeat/bin/metricbeat -c /etc/metricbeat/metricbeat.yml 
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如 果 能 够 查看 日 志 , 那 就 说 明 配 置 是 正确 的 。 
上 述 前 端 运行 的 Metricbeat 命令 只 应 被 用 来 验证 数据 是 否 正确 。 一 旦 验证 ,就 应 该 停 
止 前 端 进程 。 





全 要 在 后 端 运行 Metricbeat ,可 运行 以 下 命令 : sudo service metricbeat start。 
执行 命令 检查 Metricbeat 是 否 能 够 解析 日 志 : tailf /var/log/metricbeat/ 


metricbeat 。 











5.7.1.2 步骤 2 一 一 创建 一 个 Logstash 配置 文件 


在 这 一 步 又 中 ,将 创建 一 个 Logstash 配置 文件 , 读 取 Beats 的 输入 ,并 将 输出 数据 存 入 
Elasticsearch。 在 创建 Logstash 配置 文件 之 前 ,应 该 确认 Logstash 中 已 经 有 beats-input 
插件 。 

要 验证 Ubuntu 中 的 beats-input 插件 是 否 存 在 ,可 使 用 以 下 命令 : 


/usr/share/logstash/bin/logstash-plugin list | grep beats 


如 果 该 插件 存在 ,结果 中 会 显示 logstash-input-beats; 如 果 该 插件 不 存在 ,可 使 用 以 下 
命令 安装 beats-input-plugin 插件 : 


/usr/share/logstash/bin/logstash-plugin install logstash-input-beats 


0 bin/plugin 的 使 用 已 经 被 废弃 , 它 已 被 bin/logstash-plugin 代替 。 





要 验证 Windows 中 的 beats-input-plugin 插件 ,在 命令 提示 符 窗口 中 使 用 以 下 命令 : 

bin\logstash-plugin list 

如 果 该 插件 存在 , 则 在 结果 中 列 出 所 有 可 用 的 插件 ,并 检查 logstash-input-beats 插件 ; 

如 果 该 插件 不 存在 ,请 在 命令 提示 符 窗 口中 使 用 以 下 命令 安装 beats-input-plugin 
插件 : 

bin\logstash-plugin plugin install logstash-input-beats 


Logstash 的 配置 文件 内 容 如 下 所 示 : 


input { 
beats { 


port =>5044 
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output { 
elasticsearch { 
hosts =>"localhost:9200" 
index =>"%{[@metadatal] [beat]}-%{+YYYY.MM.dd}" 
document type =>"%{[@metadatal] [type]}" 
} 
stdout { codec =>rubydebug } 
} 


正如 在 前 面 的 配置 文件 中 所 看 到 的 ,我 们 指定 模板 使 所 有 Beats 组 件 获取 的 字段 被 正 
确 存储 在 Elasticsearch 中 ,Beats 的 面板 也 将 导入 这 些 数据 。 

将 创建 的 Logstash 配置 以 文件 名 metricbeat. conf 保存 到 /usr/share/logstash 文件 夹 
中 。 转 到 Logstash 文件 夹 后 使 用 如 下 命令 运行 带 有 配置 文件 的 Logstash: 


$ bin/logstash -f metricbeat.conf 


Logstash 将 运行 并 解析 每 个 输入 的 配置 文件 ,并 将 输入 存储 在 Elasticsearch 中 的 
metricbeat-YYYY. MM. dd(YYYY. MM. dd 对 应 于 当前 年 .月 和 日 ) 索 引 中 。 在 控制 台中 
可 看 到 日 志 , 其 中 将 显示 存储 在 Elasticsearch 中 的 数据 及 其 对 应 的 各 种 字段 。 


全 上 述 前 端 运行 的 Logstash 命令 只 应 被 用 来 验证 数据 是 否 正 确 。 一 旦 验证 ,就 应 


该 停止 前 端 进程 。 





一 旦 可 以 从 Logstash 的 日 志 中 查看 数据 ,就 可 将 metricbeat. conf 文件 复制 到 /etc/ 
logstash/conf. d 目录 下 。 将 这 两 个 进程 作为 一 项 服务 ,可 以 通过 以 下 命令 来 运行 : 


sudo service metricbeat start 


sudo service logstash start 


该 命令 将 运行 Metricbeat 和 Logstash 进程 .最 终 通 过 在 Elasticsearch 中 创建 索引 来 存 
储 数据 。 

运行 Logstash 之 后 验证 数据 是 否 成 功 存储 在 Elasticsearch 中 的 另 一 种 方法 如 下 。 

在 运行 Logstash 服务 和 Metricbeat 之 前 ,执行 以 下 命令 : 


curl -XGET localhost:9200/metricbeat-* 


上 述 命 令 将 返回 index_not_found_exception 类 型 的 输出 错误 。 
运行 Logstash 和 Metricbeat 服务 后 .使 用 以 下 命令 : 





Curl -XGET localhost:9200/metricbeat- * 


上 述 命 令 将 返回 索引 名 称 及 其 元 数据 的 输出 数据 。 
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5.7.1.3 步骤 3 一 一 下 载 和 加 载 Beats 组 件 示例 面板 


在 此 步骤 中 ,将 下 载 由 Elastic 团队 提供 的 Beats 面板 直接 监控 服务 器 。 它 可 以 提供 快 
速 入 门 的 一 个 例子 ;也 可 以 根据 需要 自 定义 和 创建 搜索 .可 视 化 统计 图 表 和 面板 。 

要 在 Kibana 中 加 载 面 板 ,需要 运行 一 个 脚本 .在 Kibana 中 创建 索引 模式 (index pattern)， 
例如 metricbeat- * 。 这 也 将 加 载 已 创建 的 搜索 结果 样本 ,可 视 化 统计 图 表 和 面板 。 

要 在 Ubuntu 中 加 载 Beats 面板 ,请 使 用 以 下 命令 : 


cd /usr/share/{beat-name} 


Metricbeat 的 完整 路 径 为 /usr/share/ metricbeat。 
运行 以 下 命令 下 载 并 加 载 beats 组 件 示 例 面 板 : 


./scripPts/import_dashboards 


该 命令 将 在 Kibana 中 加 载 Beats 面板 。 





全 在 运行 import dashboard 的 脚本 之 前 ,请 确保 Elasticsearch 正在 运行 。 





默认 情况 下 ,执行 面板 导入 脚本 时 ,假定 Elasticsearch 正在 默认 主机 和 端口 {localhost: 
9200} 上 和 运行。 如 果 在 不 同 的 配置 下 运行 Elasticsearch ,可 以 使 用 -es 选项 来 加 载 : 


./scripts/import_dashboards -es http://192.168.1.12:9200 
也 可 以 使 用 其 他 配置 参数 ,要 查看 这 些 参数 请 访问 , 


https://www.elastic.co/guide/en/beats/1ibbeat/1.2/dashboard-load- options .html 


5.7.1.4 步骤 4 一 一 查看 Beats 组 件 示例 面板 


加 载 示例 面板 后 , 即 可 启动 Kibana, 将 看 到 索引 模式 已 创建 为 metricbeat-* 。 也 可 以 
单 击 Kibana 界面 中 的 Management | Saved Objects(“ 管 理 ”|“ 已 保存 的 内 容 ”) 导 航 选项 以 
查看 加 载 到 Kibana 中 的 所 有 面板 、 搜 索 结果 和 可 视 化 统计 图 表 。 

转 到 Kibana 中 的 Visualize( 可 视 化 ) 选 项 卡 , 然 后 从 列表 中 选择 可 视 化 方式 ,或 者 直接 
打开 saved visualization( 已 保存 的 可 视 化 ) 统 计 图 表 . 该 列表 将 列 出 所 有 存储 在 Kibana 中 的 
可 视 化 内 容 。 选 择 Metricbeat-Dashboard 面板 中 显示 的 各 种 可 视 化 内 容 , 将 会 看 到 以 下 各 
节 所 描述 的 各 种 可 视 化 统计 图 表 。 

Metricbeat 面板 部 分 会 显示 基本 信息 ,例如 CPU 使 用 率 、 系 统 负载 和 CPU 总 占用 率 在 
一 段 时 间 内 的 变化 情况 。 

让 我 们 逐个 看 一 下 这 些 可 视 化 内 容 : 
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。 CPU Usage: 以 下 屏幕 截图 展示 了 CPU 使 用 率 的 界面 。 
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。 System Load: 下 面 的 屏幕 截图 展示 了 系统 负载 界面 。 
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。 CPU Usage over time: 以 下 屏幕 截图 展示 了 CPU 使 用 率 随时 间 变 化 的 界面 。 
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。 Top hosts by CPU usage: 以 下 屏幕 截图 展示 了 CPU 占用 率 最 高 的 主机 信息 的 界面 。 
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下 面 看 看 Kibana 展示 出 的 其 他 可 视 化 内 容 。 
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。 Top hosts by Memory usage: 以 下 屏幕 截图 展示 了 内 存 占用 率 最 高 的 主机 信息 的 


界面 。 
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。 Memory usage over time: 以 下 屏幕 截图 展示 了 内 存 占 用 率 随 时 间 变 化 情况 的 
界面 。 
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5.7.2 用 Elasticsearch 和 Kibana 探索 Elasticbeat 


下 面 将 使 用 Elasticbeat 收集 信息 ,并 将 输出 的 数据 发 送 到 Elasticsearch ,为 数据 创建 索 
引 。 使 用 Elasticsearch 中 的 数据 ,Kibana 可 以 使 用 Elasticbeat 社区 创建 的 示例 面板 对 数据 
执行 可 视 化 ,并 提供 查看 数据 的 访问 权限 。 让 我 们 尝试 简化 叙述 ,以便 更 好 地 了 解 本 节 中 的 
工作 步骤 。 

使 用 Elasticbeat 并 将 其 输出 存储 在 Elasticsearch 中 。 要 将 输出 发 送 到 Elasticsearch 
需 配置 Elasticbeat 配置 文件 中 提供 的 输出 配置 。 之 后 ,将 下 载 由 Elasticbeat 社区 提供 的 
Beats 面板 ,用 于 在 Kibana 中 导入 已 保存 的 搜索 结果 、 可 视 化 内 容 、 索 引 和 面板 。 





八 请 确认 系统 中 已 安装 Elasticbeat 组 件 。 





5.7.2.1 步 又 1 一 一 配置 Elasticbeat 发 送 数 据 到 Elasticsearch 


在 此 步 又 中 ,将 修改 名 为 elasticbeat. yml 的 Elasticbeat 配置 文件 ,该 文件 将 保存 在 
$ GOPATH/src/github. com/ radoondas/elasticbeat 中 ,把 输出 指定 为 Elasticsearch 。 默 认 
情况 下 ,Elasticsearch 配置 主机 为 localhost ,端口 为 9200 。 

从 配置 文件 中 去 掉 所 有 的 注释 以 及 换行 符 , 配 置 文件 将 如 下 所 示 : 


input: 
period: 1 
urls: 
-http://127.0.0.1:9200 
stats: 
cluster: true 
nodes: true 
health: true 
output: 
elasticsearch: 
hosts: ["localhost:9200"] 
shipper: 
logging: 
files: 
rotateeverybytes: 10485760 #=10MB 


执行 以 下 命令 转 到 指定 的 目录 : 
cd $GOPATH/src/github.com/radoondas/elasticbeat 


执行 以 下 命令 运行 Elasticbeat 


i 
局 92 ! 精通 Elastic Stack 





./elasticbeat -e -v -d elasticbeat -c elasticbeat.yml 

此 时 可 以 查看 Elasticbeat 组 件 每 隔 1 秒 获取 的 集群 统计 信息 、 节 点 统计 信息 和 集群 健 
康 状 况 的 信息 。 

5.7.2.2 步骤 2 一 一 下 载 和 和 加载 Elasticbeat 面板 

在 此 步骤 中 ,将 下 载 Elasticbeat 组 件 的 示例 面板 ,提供 快速 入门 的 一 个 例子 。 也 可 以 
根据 需要 自 定义 和 创建 搜索 ,可 视 化 统计 图 表 和 面板 。 

要 在 Ubuntu 中 加 载 Elasticbeat 面板 ,可 以 使 用 以 下 命令 : 

cd $GOPATH/src/github.com/radoondas/elasticbeat/kibana 

curl -L -Ohttps://github.com/elastic/beats-dashboards/blob/master/load.sh 


chmod u+x load.sh 
./lo0ad.sh 


执行 以 上 命令 将 在 Kibana 中 加 载 Elasticbeat 面板 。 





QO 去 行 加 载 脚本 之 前 ,请 确保 Elasticsearch 正在 运行 。 





5.7.2.3 步骤 3 一 -查看 Beats 组 件 的 示例 面板 


加 载 示 例 搜索 结果 可视化 内 容 和 面板 之 后 , 即 可 启动 Kibana, 将 看 到 Kibana 中 已 经 
创建 了 elasticbeat- * 的 索引 模式 。 也 可 以 转 到 Management | Saved Objects( 管 理 | 已 保存 
的 内 容 ) ,查看 加 载 到 Kibana 中 的 面板 .搜索 结果 和 可 视 化 内 容 。 

转 到 Kibana 中 的 Visualize 选项 卡 , 然 后 从 列表 中 选择 可 视 化 方式 ,或 者 直接 打开 





saved visualization( 已 保存 的 可 视 化 ) 统 计 图 表 。 该 列表 将 列 出 所 有 存储 在 Kibana 中 的 可 
视 化 内 容 。 选 择 Metricbeat-Dashboard 面板 中 显示 的 各 种 可 视 化 内 容 , 将 会 看 到 以 下 所 描 
述 的 各 种 可 视 化 统计 图 表 。 
。 Cluster document count: 以 下 可 视 化 内 容 展 示 了 在 一 段 时 间 内 ,每 个 集群 中 存在 的 
文档 计数 。 
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。 Cluster health shards: 以 下 可 视 化 内 容 展示 了 每 个 集群 中 初始 化 分 片 活动 主 分 片 、 
主 分 片 ,未 分 配 的 分 片 和 重 定位 分 片 的 运行 状况 计数 。 





。 Cluster status: 以 下 可 视 化 内 容 展 示 了 在 一 段 时 间 内 ,每 个 集群 中 存在 的 集群 状态 
节点 的 平均 数量 





。 Cluster OS CPU: 以 下 可 视 化 内 容 展 示 了 在 一 段 时 间 内 ,每 个 集群 中 的 节点 所 占用 
CPU 的 平均 百分比 。 
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。 Nodes Heap and NonHeap: 以 下 可 视 化 内 容 展示 了 在 一 段 时 间 内 ,每 个 集群 中 节点 
所 使 用 的 平均 JVM 堆 内 存 容 量 . 已 使 用 的 JVM 堆 内 存 容量 .JVM 非 堆 内 存 容量 和 
已 使 用 的 JVM 非 堆 内 存 容量 
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5.8 本章 狼 结 


在 本 章 中 ,我 们 了 解 了 最 新 添加 到 Elastic Stack 中 的 Beats 组 件 。 本 章 内 容 涵 盖 了 
Beats 组 件 被 开发 或 出 现 的 基本 前 提 , 以 及 它 与 Logstash 的 区 别 。 我 们 探讨 了 Beats 组 件 
在 Elastic Stack 中 的 作用 以 及 Beats 组 件 对 以 前 的 ELK Stack 扩展 的 重要 性 ;之 后 ,还 探讨 
了 不 同类 型 的 Beats 以 及 它们 各 自 的 功能 、 角 色 和 配置 选项 ;此 外 还 详细 介绍 了 如 何 安 装 和 
配置 Beats 组 件 。 在 本 章 末 尾 ,介绍 了 Beats 组 件 在 Elastic Stack 中 使 用 的 示例 。 

在 下 一 章 中 ,将 介绍 在 实时 的 生产 环境 中 解决 一 个 特定 的 问题 。 我 们 将 探讨 Elastic 
Stack 如 何 解决 所 述 的 问题 ,并 展示 Elastic Stack 的 强大 功能 。 
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Elastic Stack 实战 


Elastic Stack 服务 于 许多 组 织 , 为 这 些 组 织 解决 实际 问题 。 一 个 常见 的 场景 是 使 用 
Elastic Stack 组 件 为 企业 内 网 (Intranet) 提 供 解决 方案 。 在 本 章 中 ,将 选取 这 样 一 个 内 网 应 
用 场景 。 迄 今 为 止 ,我 们 已 经 学 习 了 关于 设置 Elasticsearch、Logstash、Beats 和 Kibana 协 
同 工 作 的 方法 。 下 面 将 在 用 例 中 使 用 所 有 这 些 组 件 。 

用 例 是 一 个 简单 的 应 用 实现 ,包括 一 个 门户 网 站 (portal) 服务 器 、 一 个 Web 服务 器 ,一 
个 搜索 引擎 和 数据 库 服务 器 ,将 分 析 这 些 服 务 器 生成 的 所 有 类 型 的 日 志和 节点 统计 数据 。 

本 章 主要 内 容 如 下 : 

。 理解 问题 场景 ; 

。 准备 Elastic Stack 数据 管道 Pipeline; 

。 配置 Elastic Stack 组 件 ; 

。 设置 Kibana 面板 。 


6.1 理解 问题 场景 


Elastic Stack 的 一 个 非常 流行 的 用 例 就 是 进行 日 志 管 理 和 分 析 。Elastic Stack 协助 了 
许多 此 类 场景 的 部 署 。 在 下 面 的 例子 中 ,将 考虑 一 个 公司 的 内 网 。 这 个 内 网 包括 几 个 模块 ， 
用 来 帮助 员工 处 理 公司 的 事件 和 流程 。 这 些 模块 如 下 : 

。 员工 信息 管理 系统 : 注册 用 户 并 完成 信息 提供 。 
培训 : 设置 培训 、 培 训 注册 .记录 考勤 等 。 

。 绩效 管理 系统 : 管理 所 有 员工 的 评估 周期 和 评估 内 容 。 

。 休假 管理 : 员工 使 用 这 个 模块 申请 、 批 准 或 拒绝 休假 。 这 个 模块 还 可 有 默认 的 休假 
类 型 及 统计 、 假 期 列表 等 。 

。 博客 : 由 公司 员工 共享 知识 的 内 部 博客 。 

。 论坛 : 包含 了 技术 类 别 的 内 部 论坛 ,员工 可 以 在 这 里 查询 并 找到 答案 。 

。 Wiki: 公司 的 Wiki, 列 出 了 项 目 、 流 程 .策略 等 可 共享 的 信息 。 
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。 文档 库 : 集中 保存 公司 所 有 必需 的 文档 ,并 为 不 同 的 文档 设置 相关 权限 。 

。 其 他 几 个 模块 : 这 些 模块 有 助 于 向 员工 发 送 通 知 、 生 日 .周年 纪念 等 内 容 。 

通常 , 像 这 样 的 模块 是 使 用 企业 门户 服务 器 开发 和 设置 的 。 对 于 上 述 需 求 ,使 用 了 
Liferay portal 服务 器 , 它 是 portal 的 众多 行业 领导 者 之 一 。 更 多 关于 Liferay 的 细节 可 以 
通过 https://www. liferay. com/ 搜 集 到 。Liferay 已 经 提供 了 许多 portlet( 模 块 ) ,公司 门户 
网 站 可 以 直接 使 用 或 者 进行 极 少 更 改 后 使 用 。 我 们 已 经 使 用 了 博客 、 论 坛 、Wiki、 文 档 和 
媒体 以 及 与 定制 开发 的 模块 协作 的 网 络 内 容 模块 , 即 员工 信息 、 休 假 管 理 、 培 训 、 绩 效 管 
理 等 。 

这 些 都 是 关于 企业 门户 服务 器 的 。 门 户 部 署 通常 搭建 成 集群 ,并 且 由 网 络 服务 器 、 负 
载 均衡 器 .搜索 引擎 .数据库 服务 器 等 支持 。 在 下 一 部 分 中 ， be 
构 , 从 而 对 这 些 服 务 器 的 优势 加 以 利用 。 我 们 选择 的 Liferay 版 本 是 v6.2, 这 一 版 本 是 最 
新 且 稳定 的 版 本 。Liferay 7 已 经 推出 ,但 它 Am 
版 本 。 

I a 将 会 有 日 志 分 布 在 这 些 机 器 上 (服务 器 程序 应 安装 在 不 同 机 器 
上 ) ,这些 日 志 会 有 不 同 的 格式 。 对 于 任何 需要 注意 的 事件 (错误 或 缺陷 ) ,我 们 需要 从 不 同 
的 机 器 读 取 和 同步 日 志 , 并 对 错误 或 缺陷 进行 故障 排除 。 

当然 ,应 该 收集 和 存储 的 信息 不 仅 是 应 用 程序 和 服务 器 日 志 ,也 应 该 收集 和 存储 与 机 器 
相关 的 信息 。 这 些 日 志 可 以 是 事件 日 志 、 运 行 时 (runtime)RAM ,进程 或 者 处 理 器 信息 

使 用 Elastic Stack 进行 日 志 管 理 和 分 析 , 可 将 日 志 以 公共 的 格式 集中 在 一 起 ,借助 它们 
分 析 收 集 的 数据 。 

门户 服务 器 总 能 接收 到 大 量 数 据 。 如 果 这 些 数据 仅 负载 到 一 台 服 务 器 上 ,将 会 导致 性 
能 上 的 问题 。 我 们 希望 使 用 两 台 门 户 服务 如 和 一 个 负载 均 街 吕 ,还 有 一些 其 他 的 工具 也 可 
以 对 改善 体系 结构 做 出 贡献 : 

。 Liferay: 承载 所 有 模块 的 门户 服务 器 平台 ， 

。 OpenDJ: LDAP 服务 器 ; 

。 MySQL: 数据 库 服务 器 ; 

。 Nginx: 负载 均衡 器 ; 

。 Elasticsearch : Liferay 门户 网 站 使 用 Elasticsearch 存储 索引 ,并 且 所 有 搜索 请 求 都 

将 针对 此 服务 器 而 展开 。 

下 面 的 示意 图 展示 了 这 个 应 用 程序 的 架构 和 节点 的 IP 地 址 : 

从 网 络 架构 示意 图 中 可 以 看 出 ,使 用 Nginx 作为 负载 均衡 器 来 平衡 负载 的 主 应 用 服务 
器 有 两 个 节点 。Nginx 的 负载 平衡 脚本 如 下 : 


upstream app liferay mes { 
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搜索 引擎 
Liferay 服 务 器 一 (Elasticsearch) 
SA 192.168.0.104 
负载 均衡 目录 服务 器 
(nginx) 192.168.0.101 一 一 (openDJ) 
192.168.0.103 192.168.0.105 
Liferay 服 务 器 
节点 B 
192.168.0.102 下 
App 服 务 器 192.168.0.106 





server 192.168.0.101:8080 ; #Liferay Tomcat Node 1 
server 192.168.0.102:8080 ; #Liferay Tomcat Node 2 
ip hash; 
} 
server { 
listen 80; 
server name lportal .com; 
access log /var/log/nginx/lportal.local .log; 
location / { 
proxy_set header X-Real-IP $remote addr; 
proxy_set header X-Forwarded-For $proxy add x forwarded for; 
proxy_set header Host $http host:$ server port; 
proxy_set header X-NginX- Proxy true; 
proxy pass http://app_liferay mes/; 
Proxy read timeout 180s; 


proxy_connect timeout 10s; 





人 @ Liferay 的 两 个 节点 都 运行 在 端口 8080 上 ,并 且 使 用 lportal. com 域 连接 到 
Nginx 的 两 个 节点 。 





我 们 添加 了 一 个 上 游 代 理 。 对 于 负载 均衡 ,选择 使 用 ip_hash 机 人 制 ,这 个 机 制 使 用 客户 
机 的 IP 来 确定 发 送 请 求 的 节点 。 当 然 ,还 有 其 他 机 制 : 轮转 和 最 少 连 接 机 制 。 使 用 ip_ 
hash 将 确保 请 求 发 送 到 同一 服务 器 上 ,并 且 未 来 不 会 出 现 会 话 相关 的 问题 。 

所 有 的 服务 器 安装 在 不 同 的 节点 上 。 由 于 我 们 的 应 用 服务 器 会 处 理 大 量 的 搜索 查询 ， 
所 以 在 一 台 单 独 的 服务 器 上 部 署 搜索 引擎 Elasticsearch 。 默 认 情 况 下 ,Liferay v6. 2 和 更 早 
的 版 本 都 是 用 Lucene 来 为 内 容 创 建 索引 。 对 于 Elasticsearch 的 支持 ,可 以 使 用 一 款 名 为 
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Elasticray (https://web. liferay. com/marketplace/-/mp/application/41044606 ) 的 插件 。 
这 个 插件 被 设置 使 用 Elasticsearch v1.4, 这 是 与 Liferay 一 起 使 用 的 版 本 。 

在 默认 情况 下 , Liferay v7 使 用 Elasticsearch 提供 的 搜索 引擎 功能 ,并 散人 入 了 
Elasticsearch 2.2。 也 可 以 使 用 独立 的 服务 器 来 运行 Elasticsearch, 但 服务 器 版 本 应 该 选择 
Bs 

所 有 的 用 户 均 使 用 目录 服务 器 进行 管理 ,OpenDJ( 正 式 名 称 为 OpenDS) 是 个 很 好 的 选 
择 。 对 于 最 后 一 个 节点 , 即 数据 库 服务 器 ,我 们 使 用 MySQL 数据 库 服务 器 。 

下 表 列 出 了 部 分 系统 的 所 有 节点 以 及 它们 的 版 本 。 





服务 器 节点 版 本 
Nginx 负载 均衡 器 Nginx/1. 10.1 
Liferay 服务 器 节点 6.2 
MySQL 数据 服务 器 5.7510 
OpenDJ LDAP 服务 器 3.0.0 
Elasticsearch 服务 器 一 一 针对 Liferay LL.4.0 





这 些 组 件 的 安装 和 搭建 ,以 及 针对 这 些 组 件 的 了 解 都 超出 了 本 书 的 范围 。 假 设 读者 对 
类 似 软 件 的 搭建 都 是 熟悉 的 。 针 对 你 的 用 例 , 你 的 组 件 中 可 能 不 会 用 到 Liferay, 也 可 能 会 
用 到 其 他 提供 类 似 功 能 的 工具 。 我 们 的 主要 目的 是 了 解 Elastic Stack 如 何 实现 内 容 存储 、 
可 视 化 和 分 析 。 对 于 任何 企业 内 网 门户 的 搭建 ,都 需要 类 似 的 工具 集 。 我 们 需要 一 个 负载 
均衡 器 ,数据库 .应 用 服务 器 .身份 验证 和 用 户 存 储 。 我 们 想 要 讨论 的 是 理解 Elastic Stack 
的 哪些 组 件 可 以 用 来 获取 数据 ,为 我 们 做 必要 的 处 理 , 这 样 就 可 以 对 数据 执行 可 视 化 ,帮助 
我 们 采取 必要 的 操作 和 决策 。 

为 了 帮助 你 完成 设置 ,我 们 在 https://github. com/kravigupta/mastering-elastic- 
stack-code-files/wiki/LiferaySetup 创建 了 一 个 wiki; 这 个 wiki 页 面包 含 了 搭建 Liferay 的 
步骤 。 


6.2 准备 Elastic Stack 管道 


我 们 有 一 个 需要 像 前 面 章节 那样 进行 数据 和 日 志 分 析 的 场景 ,并 希望 使 用 Elastic 
Stack 组 件 帮 助 我 们 进行 分 析 。 这 些 组 件 将 安装 在 不 同 的 节点 上 ,并 将 数据 提交 到 一 个 中 
央 Elasticsearch 节点 或 者 一 个 Elasticsearch 集群 中 。 为 了 搭建 这 样 的 功能 ,需要 更 新 我 们 
的 体系 结构 ,使 其 包含 Elastic Stack 组 件 , 如 Logstash、Beats、Elasticsearch 和 Kibana 。 
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6.2.1 要 获取 什么 数据 ? 


在 开始 更 新 体系 结构 之 前 ,需要 了 解 希望 获取 什么 数据 ,并 且 这 些 数据 将 怎样 帮助 我 
们 。 以 下 是 需要 获取 的 数据 : 
。 由 以 下 组 件 生 成 的 日 志 数 据 : 
4 Liferay. MySQL; 
® Nginx; 
® OpenD]J; 
4 被 Liferay 使 用 的 Elasticsearch 节点 。 
。 每 个 节点 的 系统 统计 数据 : 


4 Liferay、MySQL、Nginx、OpenDJ, 以 及 Elasticsearch 的 所 有 节点 。 
。 每 个 节点 的 网 络 流量 : 


4 包括 HTTP、MySQL 协议 等 。 
6.2.2 更 新 体系 结构 


需要 添加 合适 的 Beats、Elasticsearch、Kibana 和 Logstash 更 新 系统 体系 架构 。 其 中 应 
设置 一 个 Elasticsearch 节点 或 集群 来 接收 所 有 通过 Beats/Logstash 读 取 的 数据 ,以 及 一 台 
Kibana 服务 器 ,对 记录 的 数据 进行 分 析 。 最 重要 的 部 分 是 选择 希望 安装 的 Beats 组 件 ,并 
选择 在 哪 台 机 器 或 者 服务 器 上 安装 。 

我 们 来 分 析 一 下 每 台 服 务 器 ,得 出 选择 Beats 组 件 的 结论 : 

。 Nginx: 需要 获取 有 关 访 问 和 报错 的 日 志 、 系 统 运 行 状态 ,以 及 CPU/ 内 存 的 性 能 指 

标 。 对 于 日 志 , 需 要 Filebeat; 对 于 CPU/ 内 存 性 能 指标 ,可 以 使 用 Metricbeat。 我 
们 还 希望 使 用 HTTP 协议 的 Packetbeat 来 嗅 探 网 络 数据 包 。 

。 Liferay 节点 : 这 些 是 主要 服务 器 . 它 将 服务 于 用 户 的 实际 请 求 。 需 要 获取 应 用 服务 
器 、 内 存 和 CPU 使 用 情况 的 日 志 ,Filebeat 和 Metricbeat 将 会 帮助 我 们 。 

。 OpenDJ: 这 是 LDAP 服务 器 , 它 负 责 身 份 验证 。 对 于 日 志和 其 他 与 系统 相关 的 指 
标 ,也 需要 Filebeat 和 Metricbeat。 

。 Elasticsearch server for Liferay: 这 种 Elasticsearch 致力 于 提供 Liferay 的 搜索 功 
能 , 它 的 版 本 是 1. 4.0。 我 们 想 要 获取 内 存 和 CPU 统计 数据 和 日 志 , 因 此 需要 使 用 
Metricbeat 和 Filebeat 。 

。 MySQL 服务 器 : 使 用 Packetbeat 获取 与 MySQL 相关 的 特定 数据 包 。 和 其 他 服务 
器 一 样 ,也 可 以 使 用 Filebeat 和 Metricbeat 来 捕获 日 志和 系统 数据 。 

Elasticsearch server for Liferay 与 Elastic Stack 中 的 Elasticsearch 是 不 同 的 。 一 个 不 
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同 之 处 是 ,Elastic Stack 中 的 Elasticsearch 可 以 存储 已 获取 的 数据 ,并 通过 Beats 组 件 和 
Logstash 进行 处 理 。 另 一 个 不 同 之 处 在 于 版 本 ,Elastic Stack 的 版 本 是 5. 1. 1 ,而 另 一 个 则 
是 由 Liferay 插件 支持 的 1. 4. 0 版 本 。 

下 面 的 表 中 指定 了 不 同 的 服务 器 在 获取 相关 数据 时 ,所 安装 的 Beats 组 件 。 




















服务 器 节点 安装 的 Beats 组 件 
Nginx 负载 均衡 器 Filebeat Metricbeat 和 Packetbeat 
Liferay 服务 器 节点 Filebeat 和 Metricbeat 





MySQL 数据 服务 器 
OpenDJ LDAP 服务 器 


Filebeat Metricbeat 和 Packetbeat 





Filebeat 和 Metricbeat 








Elasticsearch 服务 器 一 一 针对 Liferay Filebeat 和 Metricbeat 


由 于 必须 读 取 所 有 服务 器 的 日 志 , 而 日 志 是 存储 在 文件 中 的 (大 部 分 是 . log 文件 ) ,所 
以 需要 用 Filebeat 来 读 取 日 志 。 对 于 与 网 络 相 关 的 流量 ,需要 用 Packetbeat; 对 于 系统 中 的 
统计 数据 ,可 以 使 用 Metricbeat。 

Filebeat 读 取 的 数据 将 被 发 送 到 Logstash, 以 便 进行 一 些 处 理 ,之 后 ,Logstash 将 数据 发 送 
到 Elasticsearch。Logstash 会 解析 日 志 , 并 将 完整 的 日 志 信 息 分 解 为 多 个 字段 。 例 如 ,Nginx 
访问 日 志 包 含 访 问 者 的 IP ,referrer .user agent 以 及 更 多 的 字段 。 如 果 不 把 它 分解 成 多 个 字段 ， 
一 定 会 错失 很 多 高 质量 的 分 析 结 果 。 对 于 日 志 消 息 的 额外 处 理 和 解析 ,使 用 Logstash 是 首选 ， 
因为 它 提 供 了 灵活 性 。 对 于 Metricbeat 和 Packetbeat ,将 使 用 Elasticsearch 作为 输出 。 


6.3 配置 Elastic Stack 组 件 


在 这 一 节 中 ,我 们 将 配置 所 有 用 来 获取 数据 的 工具 ,使 用 的 组 件 有 Elasticsearch、 
Logstash、Kibana、Filebeat、Metricbeat 和 Packetbeat。 其 中 的 数据 管道 如 下 图 所 示 。 





Logstash 











Elasticsearch 


fi | 


Filebeat Metricbeat Packetbeat Kibana 















































所 有 的 组 件 都 是 同一 版 本 , 即 5. 1. 1。 使 用 Filebeat 读 取 日 志 , 将 这 些 日 志 推 送 到 
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Logstash 中 进行 处 理 , 然 后 为 其 在 Elasticsearch 中 创建 索引 。 在 我 们 搭建 的 环境 中 ， 
Logstash 运行 在 192. 168. 0. 112 上 ,而 Kibana 运行 在 192. 168. 0. 111 上 。 这 里 的 
Elasticsearch 实例 与 为 实现 Liferay 搜索 引擎 所 安装 的 Elasticsearch 不 同 , 它 是 低 版 本 
1.4.0, 因 为 这 个 版 本 是 Elasticray 插件 所 支持 的 版 本 。 

使 用 Metricbeat 和 Packetbeat 来 采集 数据 ,并 且 将 数据 直接 送 入 Elasticsearch。 最 终 ， 
使 用 Kibana 可 视 化 这 些 数 据 。 





6.3.1 搭建 Elasticsearch 


根据 不 同 需求 ,可 以 将 Elasticsearch 设置 为 独立 的 节点 或 者 集群 。 如 果 想 搭建 集群 ， 
可 以 参考 第 11 章 , 对 集群 中 的 节点 数量 加 以 理解 。 

一 旦 在 机 器 上 获取 Elasticsearch 的 软件 包 ,并 解压 之 后 ,就 可 以 设置 节点 名 称 、 日 志 
储 路 径 等 属性 。 修 改 配置 文件 config/elasticsearch. yml 如 下 : 


node .name: es-node-stack 
path.data: /var/lib/elasticsearch 
path.logs: /var/log/elasticsearch 
network.host: 192.168.0.110 
http.port: 9200 


如 果 想 创建 集群 ,可 以 为 Elasticsearch 集群 设置 一 个 名 称 : 
cluster.name: es- stack 


配置 Elasticsearch 之 后 , 即 可 运行 这 些 节点 。 转 到 Elasticsearch 解压 的 存储 目录 ,并 


运行 Elasticsearch: 


./bin/elasticsearch 





tp Elasticsearch 作为 系统 服务 安装 和 使 用 。 要 了 解 这 方面 的 内 
请 参阅 第 1 章 的 安装 部 分 。 





上 述 操 作 将 使 Elasticsearch 节点 /集群 启动 并 运行 。Elasticsearch 现在 已 经 准备 好 接 
收 每 个 节点 中 Beats/Logstash 发 送 的 数据 。 


6.3.2 搭建 agents/Beats 


可 根据 需要 设置 Packetbeat、Metricbeat 和 Filebeat。 如 前 面 的 表 中 所 定义 的 内 容 ， 
Beats 对 应 于 更 新 后 的 体系 结构 中 每 个 相应 的 节点 ,下 面 在 每 个 服务 器 上 安装 各 自 的 Beats 
组 件 。 
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6.3.2.1 Packetbeat 


根据 需要 修改 Packetbeat 配置 文件 Packetbeat. yml。 由 于 要 获取 HTTP 和 MySQL 
协议 的 数据 ,因此 需要 为 每 个 协议 配置 端口 。 我 们 需要 选择 一 个 网 络 接口 来 获取 数据 包 , 并 
从 以 太 网 获取 数据 ,因此 选择 en0, 这 也 是 接口 设备 的 默认 值 ,如 下 所 示 : 


packetbeat .interfaces.device: en0 
需要 为 MySQL 和 HTTP 协议 设置 端口 号 : 


Packetbeat .protocols .http: 
ports: [80, 8080, 8000, 5000, 8002] 
Packetbeat .protocols.mysql: 
ports: [3306] 


将 这 些 数据 直接 传送 到 Elasticsearch, Elasticsearch 集群 IP 是 带 有 默认 端口 号 的 


192. 168. 0. 110: 


So 


output .elasticsearch: 

hosts: ["192.168.0.110:9200"] 
template.name: "packetbeat" 
template.path: "packetbeat.template.json" 


template.overwrite: false 


其 中 的 template( 模 板 ) 用 于 在 Elasticsearch 中 设置 映像 。 可 以 将 所 有 其 他 属性 保持 为 
默认 值 ,并 启动 每 台 机 器 上 的 Packetbeat。 


6.3.2.2 Metricbeat 


为 了 获取 系统 和 服务 器 相关 的 统计 数据 ,需要 在 网 络 拓扑 中 的 每 个 服务 器 上 配置 
Metricbeat 。 可 根据 需要 修改 配置 文件 metricbeat. yml。 
对 于 每 个 服务 器 需要 捕获 系统 信息 和 统计 数据 ,metricbeat. yml 的 配置 如 下 : 


metricbeat .modules : 
-module: System 
metricsets: 

-cpu 

-load 

-core 

-diskio 
-filesystem 
-fsstat 
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一 memory 
一 network 
-Process 
enabled: true 
period: 10s 


Processes: ['.*'"] 
对 于 Nginx 服务 器 ,也 可 以 这 样 配置 来 检查 其 状态 : 


-module: nginx 

metricsets: ["stubstatus"] 
enabled: true 

period: 10s 

hosts: ["http://192.168.0.103"] 


对 于 MySQL 服务 器 ,可 以 通过 如 下 配置 来 检查 其 状态 


-module: mysql 
metricsets: ["status"] 
enabled: true 
period: 10s 
hosts: ["root@tcp(192.168.0.106:3306)/"] 


对 于 主机 配置 ,MySQL 数据 源 名 称 应 该 设置 为 以 下 格式 : 
[username[:password]@] [protocol[ (address)]]/ 


如 果 没 有 在 数据 源 名 称 中 指定 用 户 名 和 密码 , 则 应 以 如 下 所 示 的 形式 来 指定 : 


username: <username> 


password: <password> 
最 后 ,配置 输出 属性 来 指定 Elasticsearch 节点 正确 的 地 址 : 


output .elasticsearch: 
hosts: ["192.168.0.110:9200"] 


6.3.2.3 Filebeat 


通过 设置 Filebeat 来 读 取 来 自 所 有 服务 器 的 日 志 。 我们 将 会 从 不 同 的 位 置 来 读 取 文 
件 , 因 此 需要 为 安装 的 每 个 Filebeat 设置 不 同 的 prospector。 
为 所 有 的 用 例 写 和 人 共同 的 配置 : 输出 到 位 于 192. 168. 0. 112 上 的 Logstash。 


output .logstash: 
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hosts: ["192.168.0.112:5044"] 


对 于 每 一 个 用 例 , 为 安装 于 /usr/servers 目录 中 的 Liferay 服务 器 设置 prospector( 每 个 
prospector 以 一 个 -( 连 字符 ) 开 头 ) : 


-input type: log 
paths: 
-/usr/servers/liferay-portal-6.2-ce-ga4/logs/* .1og 


document type: lrlogs 


我 们 也 可 以 使 用 Filebeat 标签 来 标记 带 自 定义 名 称 的 事件 。 例 如 ,如 果 希 望 区 分 来 自 
liferay 的 日 志 , 可 使 用 标记 名 称 liferay-node-x, 其 中 ,x 是 指 节点 的 数量 ,例如 1、2, 等 等 。 


-input type: log 
paths: 
-/usr/servers/liferay-portal-6.2-ce-ga4/logs/* .1og 
tags: ["liferay-node-1"] 


document type: lrlogs 


在 前 面 的 配置 中 ,将 Liferay 集群 的 第 一 个 节点 的 标记 设置 为 liferay-node-1。 对 于 另 
一 个 节点 ,可 以 设置 其 标签 为 liferay-node-2。 

因为 Liferay 是 一 个 基于 Java 的 服务 器 ,并 且 在 日 志 中 也 会 含有 Java 堆栈 跟踪 ,因此 
在 这 种 情况 下 ,需要 加 入 多 行 日 志 配 置 。 例 如 ,下 列 日 志 条 目 显 示 Liferay 的 自动 部 署 扫 描 
器 试图 扫描 ZIP 文件, 但 由 于 ZIP 文件 损坏 ,或 者 由 于 权限 问题 无 法 打开 文件 ,所 以 操作 
失败 : 


10:50:42,357 ERROR 
[com.liferay.portal.kernel .deploy.auto.AutoDeployScanner] [AutoDeployDir:220 
] com.liferay.portal.kernel .deploy.auto.AutoDeployException: 
java.util.zip.ZipException: error in opening zip file 
com.liferay.portal .kernel .deploy.auto.AutoDeployException: 
java.util.zip.ZipException: error in opening zip file 

at 
com.liferay.portal. kernel. deploy. auto. BaseAutoDeployListener. isMatchingFile 
(BaseAutoDeployListener .java:104) 

at 
com. liferay. portal. kernel. deploy. auto. BaseAutoDeployListener. isHookPlugin 


(BaseAutoDeployListener.java:46) 


Caused by: java.util .zip.ZipException: error in opening zip file 
at java.util.zip.ZipFile.open (Native Method) 
at java.util.zip.ZipFile.<init> (ZipFile.java:215 
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at java.util.zip.ZipFile.<init> (ZipFile.java:145) 

at java.util.zip.ZipFile.<init> (ZipFile.java:159) 

at 
com.1liferay.portal. kernel. deploy. auto. BaseAutoDeployListener. isMatchingFile 
(BaseAutoDeployListener .java:89) 


. 6 more 


对 于 这 些 类 型 的 志 , 要 用 一 个 模式 来 指定 Filebeat 配置 ,以 匹配 并 将 日 志 条 目的 所 有 
后 续 行 与 主要 的 日 志 行 合并 。 对 于 这 些 日 志 , 以 下 是 多 行 配置 : 


multiline.pattern: '^([0-9] {2}:[0-9] {2}:[0-9]{2}, [0- 9] {3})" 
multiline.negate: true 


multiline.match: after 


现在 , 随 着 多 行 配置 的 加 入 ,这 类 异常 内 容 将 会 成 为 一 个 日 志 条 目 中 的 一 部 分 。 这 个 模 
式 将 在 开始 时 匹配 行 ,并 且 考 虑 一 个 新 的 日 志 条 目 , 否 则 ， en 行将 成 为 先前 匹配 的 行 
的 一 部 分 。 

除了 这 些 日 志 条 目 之 外 ,还 有 应 用 服务 器 生成 的 日 志 , 这 些 日 志 有 以 下 格式 : 


Nov 15, 2016 8:53:28 AM org.apache.catalina.startup 
.HostConfig deleteRedeployResources 


INFO: Undeploying context [/notification-portlet] 
对 于 这 些 日 志 条 目 , 多 行 配置 如 下 : 


multiline.pattern: '^([A-2Z]{1}[a-z]{2} [0-9]{1,2}, [0- 9]{4} 
[0-9] {1,2}:[0-9] {2}:[0-9] {2} (AMIPM))' 
multiline.negate: true 


multiline.match: after 


在 这 里 ,尝试 用 MMM dd,yyyy HH :mm:ss 的 形式 匹配 日 期 模式 。 为 了 便于 理解 ,并 
在 日 志 中 提供 灵活 性 ,将 在 两 个 类 型 中 存放 这 些 日 志 一 一 Ilrlogs 用 于 存放 Liferay 软件 日 
志 ;lrcatalinalogs 用 于 存放 应 用 服务 器 相关 的 日 志 。 在 node-1 上 的 最 终 配置 类 似 于 : 


- input _ type: log 
paths: 
-/usr/servers/liferay-portal-6.2-ce-ga4/logs/* .1og 


tags: ["liferay-node-1"] 

document type: lrlogs 

multiline.pattern: '^([0-9] {2}:[0-9]{2}:[0-9]{2},[0-9]{3})" 
multiline.negate: true 


multiline.match: after 
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-input type: log 
paths: 
-/usr/servers/liferay-portal-6.2-ce-ga4 
/tomcat-7. 0.42/logs/catalina* .log 
tags: ["liferay-node-1"] 
document type: lrcatalinalogs 
multiline.pattern: '^([A-2] {1}[a-z]{2} [0-9] {1,2}, [0-9]{4} 
[0-9] {1,2}:[0-9]{2}:[0-9]{2} (RMIPM) ) " 
multiline.negate: true 


multiline.match: after 


这 两 种 不 同日 志 类 型 的 文件 都 位 于 不 同 的 存储 位 置 。 与 Liferay 相关 的 日 志 在 目 录 
LIFERAY_HOME/logs 中 可 以 找到 ,与 应 用 服务 器 相关 的 日 志 位 于 目录 tomcat-xx-xx/ 
logs 中 。 在 本 例 中 ,Liferay 可 以 从 目录 LIFERAY_HOME 中 提取 ,而 tomcat 当前 所 在 的 
目录 是 /usr/servers/liferay-portal-6. 2-ce-ga4。 

Nginx 实例 上 的 Filebeat 配置 较为 简单 ,类 似 于 如 下 配置 : 


-input type: log 
paths: 
-/usr/local/var/log/nginx/access.1log 


document type: nginxaccesslogs 
在 OpenDJ LDAP 服务 器 实例 上 的 同 种 配置 如 下 所 示 : 


-input type: log 
paths: 
-/usr/servers/opendj/logs/* 
document type: ldaplogs 
OpenDJ 日 志 条 目 本 质 上 不 是 多 行 的 ,因此 不 需要 多 行 过 滤器 。 
对 于 Elasticsearch 实例 有 : 


-input type: log 
paths: 
-/usr/servers/elasticsearch-liferay/logs/* .1og 


document type: elasticsearchlogs 


6.3.3 搭建 Logstash 


一 旦 Filebeat 开始 捕获 日 志 , 就 可 以 运行 Logstash 来 接收 日 志 , 解 析 、 人 处 理 这 些 日 志 ， 
并 送 入 Elasticsearch 创建 索引 。 为 什么 需要 Logstash? Filebeat 可 以 直接 将 日 志 发 送 到 
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Elasticsearch, 因 此 它们 看 起 来 没有 变化 。 

使 用 Logstash 处 理 数据 ,可 以 更 仔细 地 查看 数据 和 已 处 理 的 字段 ,同时 日 志 也 可 以 提 
供 更 好 的 分 析 数 据 的 机 会 。 例 如 ,如 果 分 解 Nginx 日 志 来 找 出 地 理 位 置 数 据 ,那么 在 结果 
中 会 得 到 清晰 的 关于 位 置 的 信息 ,这些 信 息 反映 了 大 多 数 用 户 访问 服务 器 时 所 在 的 地 理 位 
置 。 为 了 将 日 志 分 解 成 多 个 字段 ,可 以 使 用 grok 模式 。 

在 之 前 章节 中 ,配置 Filebeat 时 添加 了 这 些 类 型 的 日 志 : nginxlogs, liferaylogs、 
elasticsearchlogs 和 ldaplogs, 并 使 用 grok 处 理 nginx、 liferay 和 OpenDJ 日 志 。 将 在 
logstash-5. 1. 1/conf 中 创建 名 为 patterns 的 目录 存储 所 需 的 所 有 模式 。 


6.3.3.1 Nginxlogs 中 的 grok 


在 logstash-5. 1. 1/conf/patterns 中 为 此 模式 创建 名 称 为 nginx. pattern 的 文件 。 一 
简单 的 访问 日 志 的 示例 如 下 所 示 : 

27.109.15.3 --[02/Jan/2017:13:10:56 +0000] "GET /dashboard HTTP/1.1" 200 

4755 "http://google.co.in/" "Mozilla/5.0 (Windows NT 6.1; WOW64) 

AppleWebKit/537.36 (KHTML,1ike Gecko) Chrome/55.0.2883.87 Safari/537.36" 

日 志 条 目 是 一 个 典型 的 Nginx 访问 日 志 , 它 有 全 、 用 户 ,认证 ,时间 标 记 (timestamp)、 

Pe 相对 URL 调用 、HTTP 响应 代码 、 内 容 长 度 、referrer 和 agent。 对 于 这 样 的 日 志 
目 ,我们 的 grok 模式 如 下 所 示 : 

NGUSER [a-zA-Z\.\@\-\+ %]+ 

NGINXACCESSLOG %{IPORHOST:clientip} % {NGUSER:user} ${NGUSER:auth} 

\[$ {HTTPDATE:timestamp}\] "% {WORD:verb} $ {URIPATHPARAM: request} 

HTTP/% {NUMBER:httpversion}"$% {NUMBER:response} (? :% {NUMBER:bytes}|-) 

(?:"(?:%{URI:referrer}|-)"|l%{QS:referrer}) $ {QS:agent} 

这 样 的 配置 将 为 Nginx 添加 一 个 名 称 为 NGINXACCESSLOG 的 模式 ,可 以 在 
Logstash 中 使 用 这 个 模式 。 


6.3.3.2 Liferaylogs 中 的 grok 
我 们 搭建 的 Liferay 运行 在 Tomcat 上 。 与 服务 器 相关 的 日 志 存 储 在 catalina 日 志 中 。 
我 们 自 定义 的 逻辑 /liferay 相关 的 日 志 存 储 在 liferay 日 志 中 。 典 型 liferay 日 志 如 下 : 


08:15:29,024INFO[http-bio-8080-exec-1718] [TimeEntryHelperImpl:267] 

Getting Project Task List 

这 个 日 志 包 含 关 于 时 间 、 日 志 级 别 . 线 程 .Java 类 、 行 号 和 日 志 消 息 的 信息 。 自 定义 
grok 模式 如 下 所 示 : 


人 
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TOMCAT DATESTAMP $ {HOUR}:?% {MINUTE} (? ::?% {SECOND}) 

LOGTHREAD ([A-2a-2z0-9 . -]+) 

TOMCAT LOG %$ {TOMCAT DATESTAMP:timestamp} % {LOGLEVEL:1level}\s* 

\[$ {LOGTHREAD: logThread}\] \[%$ {LOGTHREAD:class}:%$ {INT:line} \] \s * % {GREEDYDATA 


:message} 


此 日 志 模 式 将 读 取 liferay 日 志 并 将 其 存储 在 相应 的 字段 中 。 另 一 个 类 型 的 日 志 
catalina 日 志 , 它 主要 与 Liferay 门户 网 站 的 portlet 部 署 有 关 。 一 个 典型 的 日 志 条 目 如 下 ， 


Nov 15, 2016 8:53:28 AM org.apache .catalina.startup.HostConfig 
deleteRedeployResources 


INFO: Undeploying context [/notification-portlet] 


在 先前 的 日 志 中 ,通知 portlet 正在 被 取消 部 署 。 为 了 读 取 这 些 日 志 ,grok 模式 可 以 如 
下 所 示 


CATALINA DATESTAMP 当 {MONTH} 当 {MONTHDAY}, $ {YEAR} 

% {HOUR}:?% {MINUTE} (? ::?%{SECOND}) (? :AMIPM) 

JAVALOGMESSAGE (.*) 

CATALINALOGMESSAGE % {CATALINA DATESTAMP:datestamp} 

$$ {DATA:class}%® {LOGLEVEL: level}:\s* $%{JAVALOGMESSAGE:message} 


这 个 日 志 是 多 行 的 。Filebeat 和 Logstash 配置 允许 读 取 多 行 日 志 , 并 使 用 上 述 grok 模 
式 来 正确 地 从 日 志 行 中 分 解 字段 。 在 下 一 节 中 ,将 看 到 完整 的 配置 。 


6.3.3.3 OpenDJ logs 中 的 grok 


以 下 是 示例 日 志 消息 : 


29/Sep/2016:15:47:53 +0530] CONNECT conn=72 from=127.0.0.1:60395 
to=127.0.0.1:1389 protocol=LDAP 

29/Sep/2016:15:47:53 +0530] BIND REQ conn=72 op=0 msgID=1 version=3 
type=SIMPLE dn= "cn=Directory Manager" 

29/Sep/2016:15:47:53 +0530] BIND RES conn=73 op=0 msgID=1 result=0 
authDN= "cn=Directory Manager,cn=Root DNs,cn=config" etime=0 
29/Sep/2016:15:47:53 +0530] SEARCH REQ conn=72 op=1 msgID=2 
base="dc=rkg, dc=test" scope=sub filter="(objectClass=inetOrgPerson)" 
attrs="uid" 
29/Sep/2016:15:47:53 +0530] SEARCH RES conn=73 op=1 msgID=2 result=0 
nentries=]1 etime=1 
29/Sep/2016:15:47:53 +0530] SEARCH RES conn=72 op=1 msgID=2 result=0 


nentries=1000 unindexedetime=343 








29/Sep/2016:16:13:34 +0530] DISCONNECT conn=73 reason="Client Disconnect" 
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[20/Nov/2016:13:15:56 +0530] DISCONNECT conn=0 reason="Server Error" 
msg="LDAP Request Handler 0 for connection handler Administration Connector 
0.0.0.0 port 4444 was unable to register this client connection with the 
selector: java.nio.channels.ClosedChannelException" 

[28/Sep/2016:09:33:40 +0530] category=UTIL severity=NOTICE 
msgID=org.opends .messages.runtime.21 msg=Installation Directory: 


/usr/servers/opendj 


OpenDJ 日 志 并 不 简单 ,它们 在 格式 上 也 不 共享 ,因此 所 有 此 类 日 志 信 息 的 grok 都 是 
不 同 的 ,只 有 开头 的 时 间 惟 有 相同 的 格式 。 有 的 日 志 用 来 记录 连接 、 绑 定 信息 ,以 及 搜索 一 
般 的 日 志 。 以 下 是 这 类 日 志 信息 的 完整 的 grok: 


TIMESTAMP TZ 
\[% {MONTHDAY}/% {MONTH}/%$ {YEAR} :%$ {HOUR}® {MINUTE} (? :% {SECOND}) \s * % {ISO8601 TI 
MEZONE}? \] 


OPENDJACESSSEARCHRES % {OPENDJACESSUNBIND} result=% {NUMBER:result} 
nentries=% {NUMBER:numberOfEntries} 
$$ {RESULTTYPE}\s * etime=% {NUMBER:eventTime} 


RESULTTYPE ($ {WORD:resultType})? 


OPENDJACESSSEARCHREQ % {OPENDJACESSUNBIND} base=% {GREEDYDATA:baseInfo} 
scope=% {GREEDYDATA:scope} filter=% {GREEDYDATA:filterCondition} 


OPENDJACESSBINDRES % {OPENDJACESSUNBIND} result=% {NUMBER:result} 
authDN=% {GREEDYDATA:authDetails} etime=$% {NUMBER:eventTime} 


OPENDJACESSBINDREQ % {OPENDJACESSUNBIND} version=% {NUMBER:versionNumber} 
type=%$ {WORD:bindType} dn=% {GREEDYDATA:directoryName} 


OPENDJACESSUNBIND % {TIMESTAMP TZ:timestamp} %{GREEDYDATA:requestType} 
conn=% {NUMBER: connID} op=% {NUMBER:opID} msgID=% {NUMBER:messageID} 


OPENDJACESSDISCONNECT % {TIMESTAMP TZ:timestamp} $% {WORD: requestType} 
conn=% {NUMBER: connID} 
reason="% {DATA:reason}" (\smsg="% {GREEDYDATA:messageInfo})? 


OPENDJACESSCONNECT gs {TIMESTAMP TZ:timestamp} %$ {WORD:requestType} 
conn=% {NUMBER: connID} from=% {IPORHOST:fromIP}:% {NUMBER:fromPort} 
to=% {IPORHOST:toIP}:%{NUMBER:toPort} protocol=% {WORD:protocolName} 
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OPENDJLOGS 当 {TIMESTRAMP TZ:timestamp} category=% {WORD:categoryName} 
severity=$% {WORD:severityLevel} msgID=% {GREEDYDATA:messageID} 
msg=%$ {GREEDYDATA:message} 


OPENDJACESSUNBIND % {TIMESTAMP TZ:timestamp} %{GREEDYDATA:requestType} 
conn=% {NUMBER: connID} op=% {NUMBER:opID} msgID=% {NUMBER:messageID} 


这 些 grok 覆盖 openDJ 的 所 有 日 志 消息 格式 。 将 这 些 模 式 保 存在 logstash-5. 1. 1/ 
conf/patterns/opendj. pattern 文件 中 。 


6.3.3.4 配置 文件 
处 理 liferay、Nginx 和 OpenDJ 节点 日 志 的 配置 文件 如 下 : 


input { 
beats { 
port =>5044 
codec =>multiline { 
patterns dir =>"./conf/patterns/" 
pattern =>"(^% {TOMCAT DATESTAMP}| 
^% {CATALINA DATESTAMP}| 
^% {TIMESTAMP TZ})" 
negate =>true 


what =>"previous" 


} 





filtert{ 
if [type] =="lrlogs" { 
mutate { 
gsub =>['message', "\n", " "] 
gsub =>['message', "\t", " "] 
} 
grok { 
patterns dir =>"./conf/patterns" 
match =>[ "message", "%{TOMCAT LOG}"] 
} 
} 
if [type] lrcatalinalogs" { 
mutate { 


gsub =>['message', 





gsub =>['message', "\t", 
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} 
grok { 
patterns dir =>"./conf/patterns" 
match =>[ "message", "%{CATALINALOGMESSAGE}"] 
} 
} 
if [type] =="nginxaccesslogs" { 
grok{ 
patterns dir =>"./conf/patterns" 
match =>{ "message" =>"% {NGINXACCESSLOG}" } 
} 
geoip { 
source =>"clientip" 
} 
} 
if [type] =="ldaplogs" { 
grok{ 
patterns dir =>"./conf/patterns" 
match =>{ "message" =>[ "% {OPENDJLOGS}", 
"gs {OPENDJACESSCONNECT}", 
"% {OPENDJACESSDISCONNECT}", 
"% {OPENDJACESSBINDREQ}", 
"gs {OPENDJACESSBINDRES}", 
"gs {OPENDJACESSSEARCHREQ}", 
"% {OPENDJACESSSEARCHRES}", 
"$ {OPENDJACESSUNBIND}" ] } 
} 
} 
} 
output { 


elasticsearch { 
hosts =>"192.168.0.110:9200" 
document type =>"%{[@metadatal] [type]}" 





例 patterns_dir 的 路 径 也 可 以 添加 为 绝对 路 径 。 





我 们 来 了 解 一 下 在 这 里 要 做 些 什么 。 在 输入 部 分 ,正在 监听 Filebeat。 来 自 Filebeat 的 
输入 通过 多 行 编 解 码 器 进行 处 理 。 对 于 多 行 日 志 消 息 , 该 处 理 过 程 自动 为 换行 处 添加 \n 符 
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号 ,并 在 每 一 行 Java 堆栈 跟踪 信息 的 开头 添加 \t 作为 占 位 符 。 对 日 志 进 行 转换 ,将 其 中 的 
\n 和 \t 去 掉 , 使 所 有 的 日 志 行 在 送 入 grok 过 滤器 前 被 视 为 单行 。 过 滤器 处 理 后 ,日 志 将 被 
分 解 为 各 个 字段 ,然后 存 人 Elasticsearch 。 

对 于 Nginx 日 志 , 不 需要 在 输入 部 分 指定 编 解码 器 ,并 在 过 滤器 中 进行 转换 。 同 样 , 可 
以 使 用 NGINXACCESSLOG 模式 来 匹配 日 志 。 此 外 ,将 使 用 geoip ,这 样 就 可 以 使 用 访问 
者 的 IP 来 获取 其 位 置 相 关 的 数据 。 这 样 的 配置 将 添加 一 个 位 置 字段 , 它 上 具有 经 度 和 纬度 
值 。 如 果 在 输出 部 分 没有 指定 任何 索引 名 称 , 则 索引 名 称 将 自动 设置 为 logstash-% {十 
YYYY. MM. dd} 。Elasticsearch 插件 中 已 经 加 载 到 Logstash 的 映像 模板 会 自动 将 位 置 字 
段 转换 为 geo_point, 这 样 其 中 的 数据 就 可 以 用 于 类 似 瓦 片 地 图 的 可 视 化 内 容 中 。 

对 于 OpenDJ 日 志 信 息 ,提供 了 grok 模式 的 数组 ,其 中 将 选择 第 一 个 与 信息 匹配 的 grok。 

准备 好 配置 文件 后 , 带 着 配置 文件 的 名 称 portal. conf ,执行 以 下 命令 启动 Logstash: 


./bin/logstash -f conf/portal .conf 


此 时 Filebeat 开始 将 读 取 的 日 志 信 息 发 送 到 Elasticsearch, 这 些 信息 可 以 通过 Kibana 查看 。 
6.3.4 设置 Kibana 


这 个 例子 中 Kibana 的 IP 地 址 是 192. 168. 0. 111,Elasticsearch 的 IP 地 址 是 192. 168. 
0.110。 设 置 Kibana 主机 的 名 称 为 kibana-node-stack。 其 配置 文件 config/kibana. yml 的 
内 容 如 下 所 示 : 

server.host: "192.168.0.111" 

server.port: 5601 

elasticsearch.url: "http://192.168.0.110:9200" 

SerVer .name: "Kibana-node- stack" 

一 旦 Kibana 设置 并 配置 完成 ,就 可 以 运行 Kibana 来 可 视 化 输入 的 数据 。 在 Kibana 的 
安装 目录 中 执行 以 下 命令 : 


$ ./bin/kibana 


Kibana 运行 后 , 即 可 设置 索引 模式 (index patterns)。 例 如 ,对 于 与 日 志 相 关 的 模式 ,所 
有 的 索引 都 将 通过 logstash * 模式 来 匹配 。 


6.4 ”设置 Kibana 面板 


对 于 每 一 种 Beats 组 件 而 言 ,官方 提供 了 少量 已 创建 的 面板 样本 。 可 以 使 用 各 个 Beats 
组 件 提供 的 脚本 来 导 和 这些 面板 。 下 面 让 我 们 来 看 一 下 每 个 Beats 组 件 的 面板 。 
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6.4.1 Packetbeat 
在 Packetbeat 存储 目录 中 运行 以 下 命令 来 导 和 人 Packetbeat 的 面板 2: 


./scripts/import dashboards -es http://192.168.0.110:9200 


执行 这 一 命令 ,将 在 Kibana 中 导入 所 有 Packetbeat 的 面板 。 可 以 转 到 Kibana 中 的 
Web Interface | Dashboard | Open 菜单 下 查看 这 些 面板 ,并 且 可 以 看 到 一 个 预 设 面板 列表 ， 








如 下 图 所 示 。 
让 New Add Save Open Share Options © Last15minutes 
A [1415E UE 
-es QDash Bofa Manage Dashboards 
Visualze A 
Dashboard Packetbeat Cassandra 
Timellon Packetbeat Dashboard 
Manegament Packetbeat HTTP 
DevTooks Packetbeat MongoDB performance 


Packetbeat MySQL performance 
Packetbeat NFS 
Packetbeat PgSQL performance 


Packetbeat Thrift performance 








Collapse 





默认 情况 下 ,所 有 的 面板 都 会 被 导入 。 如 果 不 想 保 存 面板 ,可 以 使 用 管理 面板 (Manage 
Dashboards) 链 接 来 删除 面板 。 


6.4.2 Metricbeat 
在 Metricbeat 存储 目录 中 执行 以 下 命令 导入 Metricbeat 的 面板 : 


./scripts/import_ dashboards -es http://192.168.0.110:9200 


执行 这 一 命令 ,将 在 Kibana 中 导入 Metricbeat 的 所 有 面板 。 我 们 可 以 转 到 Kibana 中 
的 Web Interface | Dashboard | Open 菜单 下 查看 这 些 面 板 . 并 且 你 可 以 看 到 一 个 预 设 面 板 
列表 : 


@ 译 者 注 : 原文 中 这 句 话 中 间 搬 入 了 一 个 一 indexentry dbid 一 "92615”content 一 "Packetbeat: importing, for 
Kibana Dashboards "过 标记 ,笔者 认为 这 个 标记 与 正文 内 容 无 关 , 故 将 其 忽略 。 
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默认 情况 下 ,所 有 的 面板 都 会 被 导入 。 如 果 不 想 保 存 面板 ,可 以 通过 使 用 管理 面板 链接 
来 删除 面板 。 

Filebeat 没有 默认 的 面板 ,需要 为 获取 的 数据 创建 一 个 面板 。 

所 有 的 组 件 全 部 搭建 和 和 运行 并 且 所 有 的 数据 都 已 经 获取 之 后 ,就 已 经 做 好 了 可 视 化 的 
准备 ,并 可 捕获 任何 可 能 发 生 的 问题 。 监 视 服务 器 的 过 程 中 ,发 生 严重 错误 时 很 想 了 解 每 台 
机 器 的 内 存 和 处 理 器 统计 数据 。 对 于 数据 库 的 统计 数据 ,十 分 希望 了 解 是 否 有 些 执行 频繁 
但 速度 很 慢 的 查询 ,以 及 响应 时 间 吞吐 量 等 。 幸 运 的 是 ,只 需 花 费 很 少 精 力 ,甚至 不 需要 花 
费 精力 , 即 可 对 大 部 分 统计 数据 执行 可 视 化 。 导 和 人 面板 时 ,所 有 的 可 视 化 内 容 都 将 被 预 装 和 人 
Kibana 的 面板 中 。 


6.4.3 查看 数据 库 (MySQL ) 性 能 


对 于 MySQL ,可 以 使 用 计数 .响应 时 间 、 错 误 数量 . 读 写 对 比 、 吞 吐 量 等 方法 ,如 下 图 所 
示 。 这 个 面板 可 以 转 到 Kibana | Dashboard | Open | Packetbeat MySQL Performance 菜单 
下 查看 。 

显示 以 上 信息 时 ,同一 面板 中 也 列 出 了 最 常见 的 查询 和 执行 速度 慢 的 MySQL 查询 ， 
这 通常 有 助 于 我 们 提高 性 能 。 可 缓存 常用 的 查询 结果 ,并 减少 DB 处 理 计数 。 对 于 执行 
速度 慢 的 查询 ,可 优化 查询 来 改善 响应 时 间 。 下 面 的 截图 中 展示 了 两 个 列表 : 第 一 个 列 
表 显 示 了 最 频繁 的 查询 ,第 二 个 列表 按 平均 响应 时 间 显 示 了 所 有 查询 中 执行 速度 最 慢 的 
查询 。 
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除了 这 些 统计 图 表 和 数据 列表 , Packetbeat 中 还 提供 了 总 览 面板 (Overview 
Dashboard) , 它 还 列 出 了 Web 事务、 延迟 .错误 与 成 功 事务 的 对 比 等 。 

若 需要 添加 更 多 的 可 视 化 内 容 , 可 以 通过 新 建 可 视 化 并 添加 至 面板 来 完成 。 同 样 ,也 可 
以 从 面板 中 删除 不 必要 或 者 不 相关 的 可 视 化 内 容 


6.4.4 分 析 CPU 的 使 用 


使 用 Metricbeat 面板 ,可 以 从 Metricbeat-CPU 面板 看 到 CPU 的 使 用 率 和 系统 负载 ， 
如 下 图 所 示 。 

除 此 之 外 ,同一 面板 中 还 列 出 了 搭建 和 运行 Metricbeat 的 每 台 机 器 的 CPU 统计 
数据 。 
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6.4.5 内存 使 用 情况 


类 似 于 CPU 统计 数据 ,Metricbeat 也 提供 了 一 个 与 内 存 相关 的 统计 数据 的 面板 。 这 个 
面板 展示 了 内 存 占用 量 ` 可 用 内 存 容量 交换 空间 使 用 情况 以 及 内 存 占用 量 最 大 的 前 几 台 
机 的 数据 ,如 下 图 所 示 。 





8GB 8,374,636 7.822GB 87.746MB 











还 有 其 他 的 可 用 面板 , 帮 我 们 可 视 化 与 进程 相关 的 数据 。 可 以 按 内 存 和 CPU 使 用 情 
况 来 查看 占用 资源 最 多 的 进程 ,以 及 其 中 每 一 个 进程 的 CPU 和 内 存 使 用 情况 列表 。 
6.4.6 检查 日 志 


当 Filebeat 正在 运行 时 , 它 将 搜集 所 有 发 生变 化 的 日 志文 件 内 容 , 通 过 Logstash 解析 
后 发 送 到 Elasticsearch 中 创建 索引 。 转 到 Kibana | Discover. 可 以 看 到 所 有 匹配 logstash 
的 索引 模式 的 日 志 。 下 图 是 一 个 日 志 列表 的 示例 。 
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我 们 可 以 使 用 不 同 的 参数 (字段 ,在 左 侧 导航 栏 中 可 用 字段 Available Fields 下 方 列 
出 )。 通 常情 况 下 ,在 生产 环境 中 , 当 有 大 量 并 发 用 户 时 ,就 会 产生 非常 多 的 日 志 , 甚 至 每 秒 
或 者 每 分 钟 产生 上 千 条 日 志 。 在 日 志 中 发 现 一 个 错误 是 不 容易 的 ,这 时 , 像 Kibana 这 样 的 
工具 提供 了 一 种 功能 ,以 使 我 们 可 以 在 其 中 搜索 日 志 条 目 。 从 大 量 日 志 中 搜集 有 用 的 信息 
是 一 项 很 艰巨 的 任务 ,分 类 是 很 有 用 的 一 一 就 像 设置 Filebeat prospectors 时 使 用 文档 类 型 
一 样 。 另 外 ,也 可 为 主要 的 应 用 服务 器 节点 添加 标签 。 下 图 是 使 用 nginxaccesslogs 类 型 过 
滤 后 的 日 志 。 
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可 使 用 nginxaccesslogs 过 滤 日 志 。 正 如 所 看 到 的 ,只 有 nginxaccesslogs 类 型 的 日 志 被 
展示 出 来 了 。 这 个 视图 提供 了 一 个 特定 的 、 定 向 的 视图 和 要 查找 的 日 志 列 表 。 

类 似 地 ,也 可 以 尝试 标签 。 可 使 用 Filebeat 配置 中 指定 的 标记 为 liferay node 1 选择 
日 志 。 
对 于 给 定 的 时 间 范 围 , 还 可 以 通过 单 击 左 侧 的 可 用 字段 来 查看 日 志 的 分 类 ,可 以 看 到 每 
个 类 别 的 日 志 数 量 。 例 如 ,如 果 想 知道 liferay 每 个 节点 的 日 志 数 量 ,就 可 以 在 标签 下 看 到 ， 
如 下 面 的 截图 所 示 。 
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在 这 里 可 以 很 快 地 创建 可 视 化 。 如 果 单 击 日 志 数 量 下 面 的 可 视 化 按钮 ,界面 中 将 会 出 
现 一 个 直方 图 ,liferay 节点 在 X 轴 上 ,计数 在 Y 轴 上 。 

类 似 于 这 些 统计 数据 和 日 志 , 还 可 以 注意 所 有 的 节点 和 服务 器 ,包括 应 用 程序 服务 器 
(我 们 案例 中 的 门户 网 站 )、HTTP 服务 器 、LDAP 服务 器 .搜索 引擎 等 。 


6.4.7 寻找 访问 最 多 的 网 页 


如 果 服 务 于 大 量 用 户 ,就 会 希望 访问 最 多 的 页 面 ,以 便 能 提供 更 好 的 内 容 和 用 户 体验 。 
Packetbeat HTTP 面板 列 出 了 所 有 网 页 的 URL 及 其 统计 数据 ,如 下 图 所 示 。 

在 该 图 中 ,可 以 看 到 一 个 URL 列表 及 其 请 求 类 型 和 计数 ,从 而 可 以 清晰 地 看 到 ,人 们 
更 感 兴趣 的 是 获取 项 目 信息 和 访问 它们 的 时 间 表 。 根 据 这 些 数 据 可 以 得 出 许多 结论 ,这 完 
全 取决 于 所 在 组 织 的 需要 。 


6.4.8 访客 地 图 


了 解 访客 来 自 哪 里 是 一 件 令 人 好 奇 的 事情 ,如 果 能 展示 在 地 图 上 ,就 更 好 了 。 谷 歌 
Web 分 析 的 平台 展示 了 这 种 可 视 化 内 容 , 可 帮 有 我 们 了 解 一 个 区 域 的 访客 数量 。 在 Kibana 
和 瓦 片 地 图 的 帮助 下 ,可 以 建立 一 个 相似 的 可 视 化 内 容 ,其 中 包含 了 位 置信 息 ( 即 经 纬度 )。 
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1Top 10 HTTP requests 入 二 XI 
! query: Descending SQ Count > 1 
! POST /group/mint/time-sheet 8,027 
上 GET /group/mint/project-dashboard 6013 
! GET /group/mint/projects 6013 
1 GET/ 4,024 
! GET /group/mint/employee-listing 4022 
1 POST /poller/receive 2,068 
,GET /mint-theme/images/portlet/draggable_borderless.png 2017 
! GET /group/mint/dashboard 2.013 
上 GET/c 2012 
! POST /web/guest/home 2012 





1 Export: Raw 二 Formatted 二 


在 设置 Logstash 时 ,添加 了 一 个 grok 模式 来 分 解 日 志 ; 并 使 用 mutate 添加 两 个 或 者 更 多 
字段 来 构建 geo_point 字段 。 使 用 这 些 , 就 可 以 在 地 图 上 绘制 地 点 。 让 我 们 来 为 这 个 案例 
创建 一 个 可 视 化 的 效果 : 

(1) 转 到 Kibana | Visualize | New | Tile Map ,选择 logstash ”索引 模式 。 

(2) 在 metrics 中 ,设置 聚合 方式 为 Count。 

(3) 选择 唯一 可 用 的 bucket 子 聚 合 一 一 geo Coordinates 。 

(4) 从 字段 中 选择 geoip. location 。 

(5) 选择 Options 选项 卡 ,将 地 图 类 型 改 为 热力 图 并 且 单 击 Run 按钮 , 即 可 看 到 包含 所 
有 访客 的 热力 图 。 

(6) 将 地 图 类 型 更 改 为 缩放 的 圆 形 标记 ,并 放大 到 某 个 区 域 或 国家 。 

可 以 看 到 访客 遍布 整个 地 图 。 这 种 可 视 化 内 容 可 帮助 我 们 更 好 地 了 解 访 客 的 地 理 位 
置 ,并 更 好 地 为 他 们 服务 。 


6.4.9 一 定时 间 范 围 内 的 访客 数量 


查看 网 站 的 实时 访问 量 是 一 件 既 有 趣 又 重要 的 事情 。 可 以 设置 一 个 指标 来 找 出 给 定时 
间 范 围 内 的 独立 访客 数量 ,这 类 指标 有 助 于 了 解 在 什么 时 间 范 围 内 访客 最 多 或 最 少 。 如 果 
需要 将 网 站 关闭 一 段 时 间 进 行 维护 或 停机 ,就 可 以 看 到 访客 量 最 低 的 时 间 统 计 : 

(1) 选择 所 需 的 时 间 范围 。 

(2) 转 到 Kibana | Visualize | New | Metric .选择 logstash ”索引 模式 。 

(3) 在 Metric 中 ,设置 聚合 方式 为 Count, 设 置 自 定义 标签 为 Total Hits( 总 命中 量 ) 。 

(4) 添加 另 一 个 Metric, 设 置 聚 合 方式 为 Unique Count。 选 择 clientip. keyword 字段 
并 将 标签 设置 为 Unique Count of Visitors。 
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(5) 类 似 地 ,可 以 在 geoip. country_name. keyword 字段 上 将 更 多 的 metrics 聚合 方式 
设置 为 Unique Count。 对 于 独立 的 城市 计数 ,可 以 设置 在 geoip. city_name. keyword 字 
段 上 。 

(6) 单 击 运行 按钮 ,会 看 到 指定 时 间 范 围 内 的 各 项 统计 数据 ,如 下 图 所 示 。 
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~ 到 208 141 28 67 


Unique Count of Vistors Courmes Ges 








正如 所 看 到 的 ,来 自 28 个 国家 67 个 城市 的 141 位 独立 的 访客 执行 了 208 次 单 击 。 此 
时 ,可 以 得 到 这 样 的 数据 ,并 查看 网 站 上 的 流量 。 


6.4.10 请求 类 型 


下 面 为 所 有 请 求 方式 的 类 型 (如 GET、PUT、POST 等 ) 实 现 另 一 种 可 视 化 。 这 是 又 一 
个 需要 了 解 的 重要 内 容 。 大 多 数 情况 下 ,执行 一 个 操作 时 ,POST 请 求 就 会 被 触发 。 这 种 数 
据 有 助 于 理解 访客 行为 : 

(1) 转 到 Kibana | Visualize | Data Table ,选择 logstash ”索引 模式 。 

(2) 在 metric 中 ,设置 聚合 方式 为 Count。 

(3) 添加 一 个 Split Row 类 型 的 bucket 聚合 .并 设置 其 方式 为 Terms。 

(4) 选择 verb. keyword 字段 ,并 将 标签 更 改 为 Request Type( 请 求 类 型 ) 。 

(5) 单 击 运行 按钮 ,界面 中 将 生成 下 面 的 数据 表 : 





Request Type > Q Count = 
GET 3,290 
POST 202 
HEAD 56 








正如 所 看 到 的 ,相对 于 POST 请 求 , 大 多 数 请 求 都 是 为 了 获取 数据 。 
6.4.11 错误 类 型 一 一 日 志 的 级 别 
类 似 于 请 求 类 型 ,也 可 以 为 日 志 级 别 设置 一 个 数据 表 。 对 于 这 种 可 视 化 ,可 以 为 lrlogs 
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设置 一 个 过 滤器 ,然后 对 level. keyword 字段 创建 一 个 类 似 于 请 求 类 型 那样 的 数据 表 。 由 
于 只 关心 为 应 用 服务 器 节点 (liferay 节点 ) 所 生成 日 志 的 级 别 , 所 以 应 该 为 lrlogs 创建 一 个 
过 滤器 。 要 创建 过 滤器 ,可 以 按照 以 下 步骤 操作 : 

(1) 转 到 Kibana | Discover, 单 击 可 用 字段 下 的 type。 

(2) 在 这 些 类 型 中 , 单 击 lrlogs 的 带 有 十 号 的 放大 镜 图 标 , 这 一 操作 将 添加 一 个 类 型 为 
lrlogs 的 过 滤器 : 





这 个 过 滤器 的 定义 如 下 : 


{ 
"query": { 
"match": { 
"type": { 
"query": "lrlogs", 


"type": "phrase" 


} 


(3) 将 这 个 过 滤器 固定 ,这 样 过 滤 功 能 就 会 在 Visualize 模式 下 被 设置 为 可 用 。 将 会 用 
它 来 可 视 化 错误 类 型 。 





上 图 中 第 一 个 图 像 是 添加 过 滤器 时 默认 的 设置 ,第 二 个 图 像 是 将 鼠标 悬 停 在 其 上 方 时 
的 样子 ,最 后 一 个 是 单 击 图 钉 的 图 标 来 固定 这 个 过 滤器 时 的 样子 。 

设置 过 滤器 之 后 ,可 以 对 Liferay 日 志 中 的 级 别 实 现 可 视 化 。 创 建 可 视 化 内 容 的 步 又 
如 下 : 

(1) 转 到 Kibana | Visualize | Data table, 选 择 logstash ”索引 模式 。 
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(2) 在 metric 中 ,设置 聚合 方式 为 Count。 

(3) 添加 一 个 splitrow 类 型 的 bucket 聚合 ,设置 其 方式 为 Terms, 应 用 在 level. 
keyword 字段 上 。 

(4) 将 标签 修改 为 Log Level, 大 小 设置 为 10 , 单 击 运行 按钮 。 程 序 将 按照 日 志 级 别 及 
其 出 现 次 数 的 统计 数据 来 生成 数据 表 。 





Log Level:Q Counts 
INFO 127 
SEVERE 39 
WARNING 2 





可 以 根据 需要 更 改 时 间 范 围 。 仅 了 解 日 志 级 别 是 不 够 的 ,还 需要 做 更 多 的 工作 ,例如 ， 
无 论 何 时 发 生 错 误 , 都 会 得 到 通知 。 我 们 将 在 本 章 后 续 的 内 容 中 使 用 Logstash 的 电子 邮件 
功能 。 


6.4.12 首选 的 referrer 


了 解 网 站 有 哪些 referrer, 理 解 和 利用 这 些 信息 ,对 于 搜索 引擎 优化 是 非常 重要 的 。 从 
可 信赖 且 受 欢迎 的 网 站 上 链接 到 自己 的 站 点 是 一 件 大 事 , 你 可 能 需要 更 多 这 样 的 引用 。 下 
面 找 出 首选 的 referrer: 

(1) 移 除 已 存在 的 过 滤器 (如 果 有 的 话 ) 。 

(2) 转 到 Kibana| Visualize| Data table, 选择 logstash ”索引 模式 。 

(3) 类 似 于 其 他 数据 表 , 仅 修改 Terms 聚合 的 字段 为 referrer. keyword 。 

(4) 将 大 小 改 为 10, 单 击 运行 按钮 ,将 得 到 前 10 个 referrer 及 其 统计 数据 。 


6.4.13 首选 的 代理 agent 


找 出 首选 的 访问 客户 端 代理 ,可 以 了 解 为 访客 提供 最 好 的 用 户 体验 时 需 做 的 更 改 工作 。 
类 似 于 首选 的 referrer 数据 表 ,保持 agent. keyword 字段 上 的 Terms 聚合 不 变 ,为 访问 客户 
端 创建 一 个 可 视 化 数据 表 。 创 建 的 可 视 化 内 容 应 如 下 图 所 示 。 








Agent Name > Q Count 
"Mozlla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKiv537.36 (KHTML like Gecko) Chrome/47.0.2526.106 Safari/537.36" 121 
"Mozila/5.0 (Windows NT 6.1; WOW64) AppleWebKiy537.36 (KHTML like Gecko) Chrome/51.0.2704.103 Safari/S37.36" 85 
“Mozilla/S.0+(compatible; UptimeRobot/2.0; http:/www.uptimerobot.com/)" 78 
“Mozila/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/50.0.2661.102 Safar/537.36" 53 
“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebkiy537.36 (KHTML Nike Gecko) Chrome/49.0.2623.112 Safari/537.36" 48 
“Mozila/5.0 (Windows NT 6.1; rw40.0) Gecko/20100101 Firefox/40.0" 46 
“Mozila/5.0 (Windows NT 6.1; WOW64) ApplewWebKit/S37.36 (KHTML. like Gecko) Chrome/55.0.2883.87 Safari/537.36" 43 
“Pingdom.com._bot_version_1.4_(http//www.pingdom.com)" 41 
“Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML like Gecko) Chrome/50.0.2661,102 Safari/S37.36" 36 
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可 以 看 到 ,大 多 数 请 求 都 是 在 Mac OSX 系统 的 客户 端 完成 的 。 


6.5 使 用 Logstash 电子 邮件 功能 发 警报 


Alerting 是 分 析 的 一 个 关键 部 分 。 由 于 不 可 能 一 周 7 天 24 小 时 持续 监控 日 志 或 任何 
其 他 统计 数据 ,所 以 需要 在 某 些 特定 事件 发 生 时 被 提醒 。 例 如 ,如 果 日 志 中 有 错误 发 生 ,就 
希望 得 到 通知 。 没 有 人 可 以 忍受 生产 环境 服务 器 上 的 错误 。 

当 某 些 错 误 发 生 时 ,可 用 Logstash 的 电子 邮件 功能 发 送 邮 件 通知 。 为 此 ,将 使 用 
Logstash 的 电子 邮件 输出 插件 。 这 个 插件 不 是 Logstash 软件 包 的 一 部 分 ,但 是 可 以 执行 如 
下 命令 安装 它 : 





bin/logstash-plugin install logstash- output- email 


一 旦 插件 安装 好 ,就 可 以 在 输出 环节 使 用 它 。 在 配置 文件 中 的 输出 部 分 ,添加 如 下 配置 
信息 ,配置 gmail 账户 来 发 送 邮件 : 


if [level] =="ERROR" { 
email { 

address =>"smtp.gmail .com" 

port =>"587" 

username =>"mes.packt" 

password =>"<password>" 

use tls =>"true" 

from=>"<mes.packt@ gmail.com>" 

subject =>"Error status" 

to=>"<to-email>" 

htmlbody =>"<h2>Some error occurred on ${host} for ${type}</h2> 
<h6>Log File Name</h6> 
<div>% {source}</div> 
<h6>Java Class</h6> 
<div>% {class}</div> 
<h6>Line Number</h6> 
<div>% {line}</div> 


<h6>Full Event</h6><div>% {message}</div>" 


} 


在 上 面 的 表单 中 ,将 检查 日 志 级 别 是 否 发 生 了 错误 ,这 个 字段 通过 grok 过 滤器 添加 。 
用 确切 的 密码 替代 一 password> ,更改 to-e-mail 为 实际 的 电子 邮件 地 址 。 一 旦 错误 发 生 ， 
程序 将 会 向 指定 的 邮箱 发 送 邮 件 。 
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例如 ,由 错误 日 志 触发 的 电子 邮件 功能 见 下 图 : 





mes.packt@gmail.com Feb 5 (2 days ago) 和 ~ 
to me 于 

Some error occurred on ATPL-MAC-14.local for Irlogs 

Log File Name 

usr/servers/liferay-portal-6.2-ce-ga4/logs/liferay.2016-08-06.log 

J ces 

TimeEntryController 

Line umber 

275 


Fu Event 








08:41:37,403 ERROR [http-blo-8080-exec-887J[TimeEntryControler275] Unparseable date: "undefined Aug 2016" 





X-Pack 提供 了 使 用 watcher 来 发 送 通知 的 方法 ,将 在 第 10 章 X-Pack 插件 中 的 
Alerting .Graph 和 Reporting 组 件 部 分 以 及 第 12 章 案 例 分 析 一 一 Meetup 中 学 习 有 关 
watcher 的 使 用 。 


6.6 ”使 用 消息 代理 


实际 服务 器 上 的 流量 有 时 是 很 高 的 。 当 这 种 情况 发 生 时 ,日 志 条 目 和 统计 数据 就 是 
非常 重要 的 ,这 些 数据 的 总 量 也 很 高 。 所 有 的 Beats 组 件 都 将 完成 各 自 的 工作 ,并 将 各 自 
的 数据 发 送 到 Elasticsearch, 但 是 有 可 能 一 些 数据 包 / 数 据 在 处 理 过 程 中 丢失 了 。 这 种 情 
况 可 能 是 网 络 故 障 、 数 据 高 峰 或 其 他 原因 造成 的 。 重 点 是 ,索引 的 数据 不 能 在 任何 情况 
币 丢 央 。 

要 解决 这 个 问题 ,使 用 消息 代理 或 缓冲 是 一 个 不 错 的 选择 。 适 合 的 消息 代理 的 工具 有 
很 多 。 对 于 开源 工具 来 说 ,有 两 个 很 好 的 工具 : 

。 Redis: http://redis. io/; 

。 Kafka: https://kafka. apache. org/。 

有 时 消息 代理 似乎 是 生产 环境 所 必需 的 ,但 在 有 些 情况 下 .并 不 需要 任何 消息 代理 。 使 
用 Filebeat 时 , 它 充 当 临 时 缓冲 区 。 生 成 的 日 志 一 定 会 被 索引 ,但 是 可 能 需要 一 些 时 间 , 而 
且 它 的 搜索 可 能 会 有 一 些 延 迟 。 如 果 这 个 延迟 是 可 接受 的 ,那么 就 没有 必要 为 日 志 使 用 代 
理 了 。 数 据 将 保存 到 另 一 个 硬件 设备 或 服务 器 中 ,以 监视 生产 环境 中 的 运行 情况 。 使 用 组 
冲 /消息 代理 纯粹 依赖 于 系统 需求 。 
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6.7 本章 狼 结 


在 本 章 中 ,我 们 分 析 了 如 何在 生产 环境 中 使 用 Elastic Stack 组 件 。 或 多 或 少 ,在 大 多 数 
生产 环境 中 ,都 配置 了 类 似 的 架构 和 安排 。 为 服务 器 选择 Beats 组 件 时 ,应 该 特别 谨慎 。 有 
时 ,可 能 会 使 用 Beats 来 读 取 数 据 ,但 是 这 些 数据 并 不 是 那么 重要 ,并 且 对 它们 的 管理 完全 
可 以 采取 其 他 手段 。 

在 本 章 靠 后 的 部 分 中 ,介绍 了 预定 义 面板 如 何 帮 助 我 们 了 解 所 需 的 信息 。 尽 管 这 些 面 
板 提 供 了 大 部 分 有 用 的 信息 ,但 依然 可 以 根据 方便 程度 和 需求 自 定义 它们 。 

在 下 一 章 中 ,将 学 习 如 何 自 定 义 Elastic Stack 中 的 每 个 组 件 ,学 会 根据 需要 对 它们 进行 
个 性 化 定制 和 修改 。 
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个 性 化 定制 Elastic Stack 


判断 软件 工具 是 否 功 能 强大 的 一 个 标准 ,就 是 看 针对 如 下 问题 的 解决 方案 : 它 是 否 能 
进行 个 性 化 配置 ? 如 果 你 正在 推销 软件 产品 ,并 且 针 对 该 问题 的 答案 是 “是 的 ,我 们 就 是 这 
样 做 的 ”那么 ,就 可 以 较 好 地 推销 你 的 软件 产品 。 这 是 一 个 开源 软件 产品 的 时 代 , 一 个 软件 
产品 的 个 性 化 定制 水 平 如 何 , 在 决定 它 在 适用 用 户 的 实际 .个 性 化 需求 方面 ,起 到 了 很 大 的 
作用 ,因为 软件 购买 者 可 能 会 在 很 多 方面 (如 自己 定义 个 性 化 插件 ,修改 已 经 存在 的 软件 配 
置 , 修 改 用 户 界面 等 ) 需 要 通过 个 性 化 的 设置 ,来 自 定义 软件 功能 和 外 观 。 

在 本 章 中 ,我 们 将 会 学 习 如 何 通过 扩展 或 修改 组 件 的 方式 ,个 性 化 定制 Elastic Stack。 
本 章 主要 内 容 如 下 : 

。 扩展 Elasticsearch; 

。 扩展 Logstash; 

。 扩展 Beats; 

。 扩展 Kibana。 


7.1 扩展 Elasticsearch 


Elasticsearch 是 一 个 拥有 诸多 优良 特性 的 、 稳 定 的 成熟 的 工程 项 目 , 而 且 它 还 是 在 不 
停 的 更 新 完善 中 。 像 其 他 优秀 的 开源 软件 一 样 ,Elasticsearch 提供 了 扩充 功能 和 人 允许 用 户 
以 其 个 性 化 方式 来 配置 Elasticsearch 的 途径 。 通 过 个 性 化 设置 ,可 以 完成 很 多 功能 ,这 里 
列 出 一 些 。 例 如 : 通过 个 性 化 设置 ,使 Elasticsearch 能 连接 到 一 种 新 的 数据 仓库 ,或 利用 它 
来 保存 数据 ;可 能 会 自己 来 写 一 个 词法 分 析 器 analyzer, 和 Elasticsearch 已 有 的 词法 分 析 器 
相 比 , 它 能 完成 一 些 其 他 辅助 功能 ; 等 等 。 在 Elasticsearch 的 早期 版 本 (V5 以 前 的 版 本 ) 
中 ,开发 者 往往 需要 生成 自己 的 rivers, 以 便 能 支持 一 种 新 的 数据 源 。 事 实 上 ,通过 使 用 
HTTP 和 Transport 模块 ,可 提供 给 软件 开发 人 员 更 多 的 个 性 化 设置 的 机 会 ,使 之 能 在 标准 
Elasticsearch 包 代 码 之 外 ,扩展 Elasticsearch 的 功能 ,并 能 提供 一 些 机 制 ,使 开发 者 能 借助 
它 , 将 其 他 的 一 些 工具 和 技术 集成 到 Elasticsearch 开发 环境 中 。 
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在 Elasticsearch 的 开发 者 社区 中 没有 太 多 的 个 性 化 定制 软件 的 举措 ,下 面 列 出 的 这 
些 , 是 最 常 使 用 到 的 、 比 较 流行 的 两 种 个 性 化 Elasticsearch 的 方法 : 

。 写 插件 : 在 5.0 版 本 之 前 (当时 软件 名 为 ELK Stack), 它 支持 三 种 类 型 的 插件 : 
Java\Site 和 Mixed 的 插件 。Site 和 Mixed 类 型 的 插件 用 于 提供 给 用 户 一 个 
Elasticsearch 界面 ,并 将 Web 开发 技术 与 面向 开发 的 语言 结合 起 来 。 这 些 插件 多 
数 用 于 洞察 数据 索引 indices ` 数 据 分 片 shards、 数 据 的 其 他 相关 信息 等 。 另 一 方面 ， 
Java 插件 用 于 提供 附加 到 Elasticsearch 的 特征 ,但 它 没有 用 户 界面 。 这 些 研 发 出 来 
的 插件 多 用 于 支持 在 云 环境 中 发 现 相关 的 聚 类 节点 ,对 数据 仓库 、 词 法 分 析 器 等 提 
供 支持 等 。 从 Elasticsearch 5.0 版 本 (此 时 软件 新 命名 为 Elastic Stack) 以 后 开始 ， 
Site 和 Mixed 类 型 的 插件 被 弃 用 了 ,只 留 下 了 Java 类 型 的 插件 。 可 以 在 如 下 地 址 
找到 所 有 Elasticsearch (5.1.x 版 本 ) 中 的 所 有 可 用 插件 ， https://github. com/ 
elastic/elasticsearch/tree/5. 1/plugins 。 
利用 Elasticsearch 来 扩展 应 用 程序 : 第 二 种 方法 是 利用 Elasticsearch 提供 的 API， 
来 个 性 化 定制 Elasticsearch。 通 过 生成 一 个 应 用 程序 ,使 用 HTTP 或 Transport 模 
块 调用 Elasticsearch 的 API, 完 成 个 性 化 定制 。 如 果 需 要 调用 HTTP 模块 ,可 以 通 
过 使 用 简单 的 REST 调用 的 方式 来 实现 。 另 一 方面 ,通过 使 用 Transport 协议 , 调 
用 Elasticsearch 的 API, 可 以 在 工程 中 增加 项 目 依 赖 (dependency)。 基 于 
Transport Client 的 JAR 文件 可 以 在 这 里 得 到 : https://mvnrepository. com/ 
artifact/org. elasticsearch. client/transport/5. 1. 1。 通 过 对 Site 和 Mixed 类 型 插件 
的 部 署 ( 注 : 这 些 插件 可 使 你 能 操纵 Elasticsearch 的 数据 索引 indices、 数 据 分 片 
shards、 聚 类 相关 数据 等 ) ,可 以 构建 自己 的 客户 端 程序 ,并 连接 到 Elasticsearch 的 
集群 中 ,完成 标准 的 文件 索引 index、 搜 索 search、 数 据 获取 get 和 删除 delete 等 
操作 。 

虽然 未 生成 任何 面向 Elasticsearch 的 具体 插件 ,但 将 在 下 面 介 绍 如 何 构建 开发 环境 ， 
并 介绍 相关 插件 的 结构 。 


7.1.1 Elasticsearch 开发 环境 

为 了 能 通过 生成 插件 来 扩充 Elasticsearch 的 使 用 功能 ,应 该 完成 一 些 设 定 , 以 便 加 速 
研发 的 进程 。 第 一 件 事 就 是 按照 如 下 方式 得 到 Elasticsearch 的 源码 : 

$ git clone https://github.com/elastic/elasticsearch.git 


上 述 命令 将 会 检 出 (checkout) 其 中 的 主 分 支 (master branch) ,其 内 容 为 正在 研发 的 版 
本 (通常 不 稳定 )。 使 用 如 下 命令 ,可 以 检 出 Elasticsearch 5. 1 版 本 。 
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$ git checkout -b elasticsearch- local origin/5.1 





人 @ 在 这 种 情况 下 ,不 必 从 https://git-scem. com 安装 Git。 类 似 地 ,Gradle 可 以 从 
https://gradle. org/ 得 到 。 











Elasticsearch 插件 工程 是 一 个 基于 gradle 的 工程 9?。 为 了 开发 和 构建 插件 ,我 们 需要 
Java 和 Gradle。 对 于 Elasticsearch 而 言 ,需要 Java version 8 以 及 Gradle version 2. 13 版 
本 。 你 可 以 选用 某 个 支持 Gradle 的 IDE 开发 环境 来 完成 对 插件 的 开发 ,良好 的 
Elasticsearch 应 用 开发 是 很 有 必要 的 。 


7.1.2 剖析 一 个 Elasticsearch Java 插件 


Elastic 开发 者 团队 已 经 有 意识 地 在 Elasticsearch 的 源码 中 给 出 一 个 名 为 jvm-plugin 
的 插件 例子 (可 从 如 下 地 址 下 载 ): 


https://github.com/elastic/elasticsearch/tree/5.1/plugins/jvm-example 
一 般 情况 下 ,该 插件 有 类 似 于 下 图 所 示 的 文件 夹 结构 。 
FMmeampe | 


bulld.gradle 
vl src 
v 图 man 
Y Ml bn 
出 test 


ExamplePluginConfiguration ,Java 
JvmExamplePluginjava 








» 图 test 





该 插件 通常 是 一 个 基于 Gradle 的 工程 ,包含 一 个 配置 文件 configuration 和 一 个 插件 类 
plugin class。 如 果 要 开发 自己 的 插件 , 则 新 开发 的 插件 的 文件 夹 结 构 应 该 与 其 类 似 。 在 
src/ main 文件 夹 下 ,应 该 有 一 个 config 文件 夹 ,在 这 里 应 该 有 一 个 YAML 格式 8 的 配置 文 
件 及 一 个 包括 运行 该 插件 的 Java 文件 夹 。 这 个 配置 文件 应 该 包括 所 有 的 和 该 插件 运行 有 


Q@ 译 者 注 : Gradle 是 基于 Apache Ant 和 Apache Maven 概念 的 项 目 自动 化 构建 工具 。 它 使 用 一 种 基于 Groovy 的 
特定 领域 语言 来 声明 项 目 设置 ,抛弃 了 基于 XML 的 烦琐 配置 。 
加 译 者 注 : YAML 是 以 数据 (而 不 是 以 置 标语 言 ) 为 中 心 的 标记 语言 。 
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关 的 配置 信息 ,其 中 的 bin 和 test 文件 夹 则 分 别 对 应 于 二 进 制 的 和 测试 的 用 例文 件 夹 。 
作为 例子 ,这 里 的 主要 插件 类 是 JvmExamplePlugin, 它 扩展 自 org. elasticsearch. 
plugins 插件 类 ,其 余 新 的 插件 类 也 应 当 如 此 。 
Gradle 的 插件 esplugin 用 于 构建 插件 。 在 build. gradle 文件 中 的 开头 部 分 ,是 一 些 必 
要 的 用 于 实现 插件 的 设置 内 容 , 类 似 如 下 这 样 : 


esplugin { 
description 'Demonstrates all the pluggable Java entry points in 
elasticsearch' 
classname 'org.elasticsearch.plugin.example.JvmExamplePlugin’' 
} 


这 里 的 类 名 是 指 构建 的 插件 类 的 名 字 。 它 应 该 和 插件 类 中 的 包 名 以 及 类 名 相 匹 配 。 

每 一 个 Elasticsearch 插件 都 必须 在 相应 的 src/main/resource 文件 夹 下 包含 plugin_ 
descriptor. properties 文件 。 可 能 需要 生成 这 个 文件 夹 和 文件 。 这 个 文件 的 作用 在 于 使 
Elasticsearch 知道 这 是 一 个 插件 类 型 的 工程 。 上 默认 情况 下 ,该 描述 文件 中 的 部 分 属性 是 可 
用 的 (属性 为 enabled), 例 如 ,插件 描述 plugin description .插件 版 本 plugin version、 名 称 
name,、 类 名 class name、Elasticsearch 版 本 、Java 版 本 等 。 由 于 Elastic Stack 中 所 有 组 件 的 
版 本 是 相同 的 ,因此 添加 的 相应 插件 的 版 本 应 该 兼容 于 同样 版 本 的 Elasticsearch。 对 每 一 
个 新 增加 的 插件 ,这 都 是 强制 性 的 要 求 。 


description=Demonstrates all the pluggable Java entry Points 
version=5.1.1 

name=jvm-example 
classname=org.elasticsearch.plugin.example.JvmExamplePlugin 
java.version=1.8 


elasticsearch.version=5.1.1 


7.1.3 构建 插件 


一 旦 完成 上 述 准备 工作 ,就 可 以 使 用 gradle 的 标准 命令 来 构建 自己 的 插件 代码 了 。 如 
果 通 过 运行 gradle 命令 来 构建 插件 工程 ,插件 描述 文件 会 自动 创建 ,并 放置 在 相应 的 插件 
夹 尾 类 中 

要 构建 源 代码 ,需要 定位 到 相应 的 插件 文件 夹 , 并 运行 如 下 命令 : 


gradle clean build 


首次 运行 上 述 命令 后 ,系统 会 搜集 相应 工程 的 所 有 工程 依赖 (dependency) ,编译 完整 的 
源码 ,并 构建 插件 工程 。 
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要 生成 用 来 部 署 的 JAR 文件 ,可 执行 如 下 命令 : 
gradle jar 


执行 上 述 命令 ,会 在 相应 插件 的 build 文件 夹 中 生成 JAR 文件 ,并 会 产生 5 种 类 似 下 面 
所 示 的 文件 : 


jvm-example-5.1.1-SNAPSHOT- javadoc .jar 


jvm-example- 5. 


1.1-SNRPSHOT- sources .jar 
jvm-example-5.1.1- SNAPSHOT .jar 
1 
有 


jvm-example-5.1.1-SNAPSHOT .pom 


jvm-example-5.1.1- SNAPSHOT .zip 


ZIP 文件 是 其 中 的 主要 文件 , 它 包 括 插件 的 JAR 文件 .插件 描述 文件 .插件 配置 文件 
等 。 和 其 他 任何 类 型 的 插件 一 样 , 这 个 新 生成 的 插件 可 安装 到 Elasticsearch 中 。 

作为 一 个 开源 软件 社区 ,让 大 家 能 共享 所 做 的 工作 ,是 一 件 很 好 的 事情 。 生 成 一 个 自己 
的 插件 后 ,将 该 插件 的 代码 放 到 某 个 宿主 计算 机 (如 可 能 会 是 github. com) 上 ,以 便 社 区 成 
员 都 能 充分 利用 该 软件 ,这 是 一 件 非常 不 错 的 事情 。 


7.2 扩展 Logstash 


对 于 Logstash, 有 两 种 扩展 其 功能 的 方法 : 一 种 是 修改 其 内 核 , 另 一 种 是 在 其 数据 仓库 
中 增加 一 个 或 多 个 自 定义 的 插件 。 前 文 已 经 提 到 ,Logstash 共有 4 种 类 型 的 插件 : 输入 
Input 、 输 出 Output、 过 滤 Filter 转换 Codec。 其 实 , 在 Logstash 中 自 定义 生成 一 个 插件 也 
是 非常 容易 的 ( 仅 需 要 运行 一 个 命令 ); 在 新 生成 插件 时 ,只 需要 提供 它 执行 的 具体 业务 
逻辑 。 

Logstash 插件 是 用 Ruby 程序 开发 语言 (http://www. ruby-lang. com/en/) 完 成 的 。 
这 些 插件 实际 上 就 是 基于 Ruby Gems 完成 的 2。 为 了 能 写 出 更 有 效 的 Gems. 应 该 了 解 有 
关 Ruby 的 相关 知识 。 

在 本 节 中 ,将 会 开发 自己 的 输入 Input 插件 , 它 会 从 Web 服务 器 中 获取 数据 。 该 插件 
的 完整 代码 可 以 在 如 下 的 Github 上 获取 到 : https://github. com/kravigupta/mastering- 
elastic-stack-code-files/tree/5. 1.1/Chapter07/logstash-input-weather。 这 个 练习 的 目的 
是 : 学 习 怎 样 生 成 和 个 性 化 定制 那些 能 服务 于 特定 目标 的 插件 ;同时 ,通过 这 个 例子 ,也 便 
于 了 解 插件 的 结构 。 

如 果 能 分 析出 使 用 了 Elastic Stack 组 件 的 工程 的 具体 做 法 ,就 会 发 现 每 一 种 类 的 可 用 


四 译 者 注 : Ruby Gems 是 对 Ruby 组件 打包 的 系统 。 
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插件 数量 很 多 ,其 中 Logstash 起 到 了 巨大 的 作用 。 如 果 看 到 一 种 新 的 输入 数据 源 ,而 且 需 
要 从 中 搜集 数据 ,之 后 将 数据 放 到 Elasticsearch 或 者 其 他 目的 地 中 ,就 需要 新 生成 一 个 
Logstash 的 插件 ,用 它 来 帮助 搜集 相应 的 数据 并 完成 索引 。 类 似 地 ,如 果 有 复杂 的 某 种 数 
据 输入 ,就 可 能 需要 过 滤 插 件 或 者 编 解码 插件 ,以 便 能 分 隔 这 些 数 据 的 语义 块 (chunk) 并 索 
引 它们 。 类 似 地 ,Elasticsearch 可 能 也 不 是 唯一 的 数据 输出 目的 地 。 例 如 ,要 捕获 特殊 的 
tweets ,并 将 它们 存 人 数据 库 中 ,以 便 某 个 第 三 方 应 用 程序 能 从 该 数据 库 中 直接 读 取 这 些 
tweets 数据 。 除 此 之 外 ,还 可 以 找到 很 多 其 他 类 似 应 用 的 场景 。 你 会 意识 到 , 某 种 
Logstash 插件 可 构建 适合 某 种 特定 应 用 场合 的 数据 管道 (pipeline) 的 处 理 流程 。 
Logstash 使 用 如 下 语法 生成 一 个 插件 : 


.bin/logstash- plugin generate - - type plugin- type - - name Plugin- name - -Path 
Plugin-path 


在 上 述 命令 中 ,需要 提供 插件 类 型 插件 名 称 、 想 要 生成 插件 的 路 径 等 信息 。 

对 于 插件 类 型 ,可 以 从 如 下 几 种 类 型 中 接收 输入 信息 : 输入 插件 Input、 过 滤器 插件 
Filter\ 编 解码 插件 Codec、 输 出 插件 Output。 在 本 节 中 ,将 生成 一 个 输入 类 型 的 插件 , 它 用 
来 从 https://openweathermap. org/ 中 获取 数据 。 简 便 起 见 ,将 使 用 这 个 插件 来 获取 某 时 
刻 某 个 城市 的 天 气 数据 信息 。 

下 面 的 语句 可 以 生成 名 为 weather 的 Logstash 的 输入 类 型 插件 。 


.bin/logstash-plugin generate - -type input - -name weather - -path ../my-plugins/ 


上 述 语 句 能 生成 一 个 my-plugins 文件 夹 ,在 这 里 ,Logstash 被 解压 执行 。 该 命令 会 自 
动 生 成 logstash-input 作为 插件 名 字 , 并 在 my-plugins 文件 夹 中 生成 一 个 名 为 logstash- 
input-weather 的 文件 夹 。 生 成 的 插件 是 一 个 简单 的 基于 Ruby gem 的 项 目 。 


1. 剖析 一 个 插件 
从 Git 上 检 出 (check out) 插 件 plugin ,其 文件 夹 结构 类 似 下 图 所 示 。 


Ml logstash-input-weather 
CHANGELOG.md 
CONTRIBUTORS 

DEVELOPER.md 
Gemfile 
-ib 
™ MM logstash 
* Ml Inputs 
而 weatherrb 
UCENSE 
logstash-input-weather gemspec 
了 Rakefle 
README .md 
» Ml spec 
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一 个 Logstash 插件 包括 如 下 组 成 部 分 : 

。 有 一 个 名 为 gemspec 的 、 用 于 描述 该 工程 的 文件 , 见 上 图 中 的 logstash-input- 
weather. gemspec 文件 。 

。 在 lib/logstash/inputs 文件 夹 下 有 一 个 rb 文件 (图 中 所 示 为 plugin-name. rb) ,这 里 
列 出 了 生成 的 插件 代码 , 它 包含 一 个 有 关 插 件 文件 的 实现 方法 的 示例 。 

。 文件 夹 spec( 参 见 上 图 ) 包 含 所 有 的 针对 该 插件 的 测试 。 

。 其 他 相关 文件 用 于 帮助 基于 Ruby Gem 的 代码 构建 ,还 有 一 些 是 相关 的 说 明文 档 ， 
例如 ,Rakefile.README. md 等 。 


2. weather. rb 文件 
这 是 一 个 主要 的 文件 ,含有 实现 该 输入 插件 的 主要 处 理 逻 辑 。 该 插件 类 名 为 weather， 
它 扩展 自 Logstash: :Inputs::Base 类 。 在 这 个 插件 类 中 的 代码 示例 生成 了 一 个 重复 事件 
event。 它 有 两 个 关键 方法 : 
。 run(queue): 包括 设计 的 实际 的 处 理 逻 辑 。 在 run 方法 中 有 一 个 while 循环 , 它 只 
在 出 现 stop 符号 标记 时 才 停 止 。 该 循环 在 设 定 的 时 间 间 隔 ( 默 认为 1 秒 ) 会 静默 。 
这 种 方法 将 队列 作为 参数 。 准 备 好 一 个 事件 时 ,会 将 该 事件 推送 到 这 个 队列 中 去 等 
待 执行 。 
。 stop(): 当 Logstash 关闭 时 ,调用 此 方法 。 
3. 插件 的 逻辑 实现 
在 开始 设计 实现 插件 前 ,需要 从 https://openweathermap. org 获得 API key, 它 将 被 用 
来 通过 weather API 得 到 城市 的 相关 数据 。 在 该 网 站 上 注册 后 ,打开 https://home. 
openweathermap. org/api_keys ,为 你 的 使 用 生成 一 个 相关 的 API key。 
我 们 将 要 使 用 的 这 个 API 调用 ,可 以 用 来 获取 城市 的 当前 数据 信息 。 为 了 得 到 更 详细 
的 API 及 其 相应 的 返回 信息 ,可 在 https://openweathermap. org/current 得 到 相关 内 容 。 
给 定 城市 名 cityName 和 API key 值 等 ,相关 信息 可 以 在 如 下 地 址 找到 : http://api. 
openweathermap. org/data/2. 5/weather?q 一 cityName&appid 一 key。 
使 用 时 ,需要 用 感 兴趣 的 城市 名 替换 cityName, 且 用 得 到 的 key 值 蔡 换 API Key。 
针对 该 Web 服务 的 输出 是 JSON 对 象 ,含有 当前 某 个 城市 的 天 气 信息 的 一 些 细节 内 
。 一 个 JSON 返回 的 结果 类 似 如 下 : 


颈 


{ 
veoord"s won 72.602. "lat™"s 23.03 jy 
"weather": [ 
{ "id": 800，"main": "Clear", 


"description": "clear sky", "icon": "01d" } 
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]， 
"base" : "stations", 
"main": { 
"temp": 300.15, "pressure": 1014, "humidity": 18, 
"temp min": 300.15, "temp max": 300.15 
}, 
"visibility": 6000, 
"wind": { 
"speed": 2.6, "deg": 30 
}, 
"oomdo ”ss { “aL.0 5 
"dt": 1486643400, 
wayes"s { 
eype"s .Lr "Ld"s T7150, "message”"s 0:0129, "country": "TN", 
"sunrise": 1486604711, "sunset": 1486645354 
}, 
“id": 1279233， 
"name": "Ahmedabad", 
"cod": 200 
} 
上 述 返 回信 息 是 针对 印度 Ahmedabad 的 气象 数据 ,涉及 温度 日照 时 间 、 下 雨 、 风 力 和 
城市 元 信息 (如 国家 、 地 理 位 置 等 )。 
下 面 完成 自己 定制 插件 的 开发 , 它 能 抽取 所 有 的 字段 信息 并 将 其 存储 在 索引 中 。 下 面 
是 需要 理解 的 编写 插件 的 主要 步 又 。 
1) 从 API 端点 读 取 数据 
为 了 能 够 从 openweathermap. org 上 获取 信息 ,需要 调用 Web 服务 端点 endpoint。 为 
此 ,需要 引入 net/http 库 。 存 weather. rb 文件 最 开头 的 部 分 增加 下 面 这 行 信息 : 


require "net/http" #for calling web service url 


应 该 在 变量 中 定义 API URL。 在 这 之 前 ,需要 定义 cityName 和 key, 并 根据 Logstash 
配置 文件 中 的 需要 给 定 其 参数 。 按 照 如 下 方式 定义 这 些 变 量 : 

config :cityName, :required =>true, :default =>"" 

config :key, :required =>true, :default =>"" 

对 上 述 两 个 参数 ,没有 设 定 默认 值 ,希望 用 户 能 够 通过 使 用 Logstash 配置 文件 为 该 数 
据 管道 pipeline 提供 相应 的 值 。 也 可 以 按照 需求 设 定 这 些 配 置信 息 。 如 果 不 设 定 这 些 值 ， 
该 插件 将 不 会 启动 收集 数据 。 现 在 ,可 以 按照 如 下 方式 设 定 URL。 
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"http://api.openweathermap.org/data/2.5/weather?q="+cityName+ "gappid="+key 

现在 ,可 以 通过 下 面 的 方式 来 完成 一 次 Web Service 调用 。 

response =Net: :HTTP.get response (URI.parse (url)) 

如 果 数 据 调用 正确 ,就 可 以 在 response. body 中 得 到 想 要 的 数据 ,并 可 以 使 用 下 面 的 方 
法 完成 对 JSON 格式 数据 的 解析 。 

weatherData =JSON.parse (response .body) 


weatherData 变量 将 会 存储 想 要 索引 的 JSON 格式 的 信息 。 

2) 准备 事件 

一 旦 在 相应 变量 中 得 到 了 天 气 数 据 , 就 能 使 用 如 下 的 Logstash: :Event. new( ) 方 法 来 
准备 事件 event。 


event =LogStash: :Event .new( ) 


Event. new( ) 能 用 字段 作为 参数 。 如 果 在 事件 初始 化 时 向 cityName 中 设置 数据 ,可 采 
用 如 下 的 调用 方式 : 


event =LogStash::Event.new("cityName" =>cityName) 
现在 ,能 使 用 event. set() 方 法 来 向 事件 event 中 增加 更 多 的 字段 。 可 考虑 如 下 方法 : 


event.set ("cityName", cityName) 


上 述 方法 的 返回 值 是 含有 JSON 对 象 和 数组 字段 ,其 值 是 诸如 数值 型 或 字符 串 类 型 的 
简单 数据 类 型 。 为 将 JSON 返回 值 转换 到 多 个 字段 中 , 需 定义 拥有 字段 名 称 的 几 个 变量 。 





config :jsonFields, :default =>"main, clouds, sys, coord, wind" 


config :arrayFields, :default =>"weather" 


这 些 字段 也 能 增添 到 配置 文件 中 ,其 默认 值 的 设置 和 字段 名 一 样 。 有 时 , 想 利用 数据 管 
理 pipeline 配置 来 改变 字段 名 称 ,这 样 做 是 可 以 的 ,只 是 这 些 字段 未 来 可 能 要 被 拆 分 。 
请 看 如 下 循环 的 例子 : 


jsonFieldsKeys =@jsonFields.split(",") 
arrayFieldsKeys =@arrayFields.split(",") 
weatherData.each do |k,v| 
if(jsonFieldsKeys.include ?k) 
Vv.each do | key, val | 
event.set(k.to s+" "+key.to s, val) 


end 
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else 
if(arrayFieldsKeys.include ?k) 
Vv.each do | obj | 
obj.each do | key, val | 


event.set(k.to s+" "+key.to _s, val) 


event.set(k.to s, v) 
end 


end 

上 述 命令 将 使 得 所 有 期 望 的 字段 值 被 拆 分 并 存储 。 

3) 发 布 事件 event 

通过 下 面 列 出 的 decorate 方法 处 理事 件 event。 如 果 有 任何 定义 标记 tag, 则 它们 是 可 
能 添加 到 相应 事件 中 的 。 


decorate (event) 


完成 decorating 方法 后 ,把 处 理 好 的 事件 event 放 入 队列 中 ,以 便 将 其 发 布 到 


Elasticsearch 中 。 


queue <<event 


到 此 ,结束 个 性 化 的 逻辑 处 理 , 它 们 驻 留 在 while 循环 中 并 进入 队列 排队 等 待 运行 。 这 
个 循环 以 某 个 内 部 设 定 的 时 间 变 量 (默认 1 秒 ) 静 默 。 在 代码 实现 方面 ,已 经 完成 了 具体 退 
辑 任务 的 处 理 。 现 在 ,可 以 开始 构建 插件 了 ,该 插件 将 会 在 Logstash 中 安装 ,并 在 Kibana 
的 数据 流 中 测试 。 





人 @ Openweathermap. org 网 站 允许 每 小 时 最 大 60 个 访问 需求 ,因此 ,在 插件 中 可 以 
设 定 60 秒 的 访问 时 间 间 隔 。 





4. 构建 与 安装 插件 
一 旦 完成 了 插件 开发 ,就 能 以 Ruby Gem 构建 插件 , 它 以 后 就 能 像 其 他 插件 一 样 安装 到 
Logstash 中 以 供 使 用 。 为 了 构建 一 个 插件 ,可 以 使 用 Gem 命令 : 


gem build logstash-input- weather .gemspec 
上 述 命令 运行 后 ,如 果 得 到 类 似 这 样 的 错误 信息 : 


ERROR: While executing gem ... (Gem::InvalidSpecificationException) 
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"FIXME" or "TODO" is not a description 


就 应 该 用 正确 的 内 容 来 更 新 gemspec 文件 了 。 一般 情 况 下 ,需要 修改 位 于 logstash-input- 
weather. gemspec 文件 中 的 摘要 、 描 述 、 主 页 的 值 。 如 果 没 有 任何 错误 输出 ,就 能 够 得 到 类 
似 下 面 的 输出 信息 : 

Successfully built RubyGem 

Name: logstash- input-weather 

Version: 0.1.0 

File: logstash- input-weather-0.1.0.gem 

这 将 会 生成 一 个 以 . gem 为 扩展 名 的 、 位 于 插件 plugin 文件 夹 中 的 插件 文件 。 使 用 下 
面 的 bin/plugin 命令 ,可 以 将 其 安装 到 Logstash 中 。 


.bin/logstash-plugin install /path/to/logstash-input-weather-0.1.0.gem 


现在 ,就 可 以 利用 这 个 插件 从 openweathermap. org 中 获取 数据 了 。 为 验证 该 插件 是 
和 否 已 经 安装 好 ,可 以 通过 运行 下 面 的 命令 来 列 出 所 有 插件 ,看 看 新 生成 的 插件 名 是 否 能 够 显 
示 出 来 : 


./bin/logstash-plugin list 


5. 测试 插件 

插件 安装 好 后 ,可 以 通过 Logstash、Elasticsearch、Kibana 的 组 合 来 测试 它 。 首 先 ,为 
Logstash 产生 一 个 名 为 weather. conf 的 配置 文件 , 它 用 于 从 opeaweathermap. org 中 搜集 
数据 并 将 数据 发 送 到 Elasticsearch 中 。 简 便 起 见 ,现在 不 用 任何 过 滤 插 件 filter。 这 个 简便 
的 配置 文件 内 容 类 似 如 下 形式 : 


input { 
weather { 

key =>"<your-api- key-here>" 

cityName =>"Ahmedabad" 
} 
output { 

elasticsearch { 

index =>"weather" 


document type =>"citiesData" 


实际 中 ,常常 需要 调试 这 个 插件 。 可 以 设置 log. level( 在 Logstash-5. 1. 1/config/ 


a 
12381 
SX 


精通 Elastic Stack 





logstash. yml 中 ) ,以 debug 形式 启动 Logstash。 


log.level:debug 


另 一 件 需 要 完成 的 工作 是 在 数据 处 理 管 道 pipeline 的 输出 部 分 增加 以 stdout 方式 输 


出 。 它 将 会 在 控制 台 显示 生成 了 什么 样 的 事件 event, 以 便于 快速 分 析 、 处 理 。 


用 自己 的 API key 替换 二 yourapirkey-here 过 占 位 符 , 可 以 使 用 如 下 的 方式 运行 


logstash 。 


./bin/logstash -f conf/weather .conf 


可 以 在 Kibana 中 看 到 这 些 日 志 : 
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如 果 以 debug 调试 模式 运行 Logstash, 就 会 在 控制 台 上 看 到 类 似 如 下 的 信息 : 


[2017-02-09T23:07:13,394] [DEBUG] [org.apache.http.wire] http-outgoing-0 >> 


"{"weather_id":711,"main pressure":1016,"clouds all":0,"sys_sunset":1486645 


361,"sys type":l1,"weather icon":"50n","weather main":"Smoke","dt":148665960 0," 


sys_id":7758,"main temp":292.15,"@version":"]1", "weather": [{"icon":"50n", 

"description":"smoke", "main":"Smoke","id":711}],"wind speed":3.71,"id":1279 
233,"coord lon":72.62,"main temp min":292.15,"weather description":"smoke", 
"visibility":4000,"tags":[],"main temp max":292.15,"wind deg":13.0008,"@tim 
2017-02-09T17:37:;13.3732", "sys_country 486604 
705,"coord lat":23.03,"name":"Ahmadabad","cod":200,"main humidity":37,"sys_ 





estamp 





IN","sys_sunrise" 


message":0.1309,"base":"stations"}[\n]" 


能 看 到 事件 event 提交 后 的 日 志 , 能 用 文档 类 型 type 验证 日 志 ( 见 上 图 Kibana 中 的 _type)。 


这 表明 我 们 的 插件 是 正常 工作 的 ,能 搜集 数据 ,也 能 发 送 数 据 到 Elasticsearch 完成 索引 。 


类 似 地 ,也 能 编写 其 他 类 型 的 插件 。 前 面 已 经 提 到 .拥有 Ruby 编程 知识 将 有 助 于 开发 
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Logstash 插件 。 








全 在 12 章 案例 分 析 一 一 Meetup 中 ,也 为 meetup. com 生成 了 一 个 输入 插件 。 这 个 
插件 比 上 述 例子 要 复杂 一 些 。 








7.3 扩展 Beats 


从 前 面 章节 已 经 看 到 ,针对 Elastic 团队 .有 四 种 核心 Beat, 即 : Filebeat、 Packetbeat、 
Metricbeat 和 Winlogbeat。 单 击 下 面 的 链接 ,可 以 显示 庞大 的 Beats 家 族 成 员 : 


https://www.elastic.co/guide/en/beats/libbeat/5.1/community-beats.html 


所 有 这 些 Beats 都 是 构建 在 Libbeat 架构 上 的 。 有 些 情况 下 ,可 能 找 不 到 一 个 能 满足 个 
性 化 需要 的 Beat, 需 要 生成 一 个 新 的 Beat, 这 个 新 生成 的 Beat 也 遵循 同样 的 处 理 架构 ,只 需 
关注 和 定制 自己 的 处 理 逻 辑 ( 即 ; 如 何 从 数据 源 取出 数据 ,如 何 准备 一 个 事件 来 把 数据 发 送 
到 Elasticsearch 或 Logstash 中 )。 

在 本 节 中 ,我 们 将 会 看 到 如 何 通 过 运用 Libbeat 架构 生成 一 个 Beat, 用 于 最 小 化 对 
Logstash 的 使 用 。 对 于 Logstash 插件 ,也 用 同样 的 例子 。 我 们 将 会 从 Web 服务 器 上 读 取 
数据 ,并 在 Elasticsearch 中 完成 索引 。 对 于 所 有 生成 的 Beat 代码 ,作为 参考 ,可 以 单 击 如 下 
的 Github 链接 , 

https:/ /github. com/ kravigupta/ mastering-elastic-stack-code-files/tree/5. 1. 1/Cha pter07/ 


weatherbeat 
7.3.1 Libbeat 框架 


为 了 理解 Libbeat 架构 是 如 何 生 成 Beat 的 ,现在 看 一 个 Beat 例子 。 它 从 一 个 应 用 中 搜 
集 基础 数据 (多 数 情况 下 是 静态 的 数据 ) ,之 后 将 数据 发 送 到 Elasticsearch 或 Logstash 中 。 
下 面 的 图 示 可 以 演示 数据 流 。 
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如 果 分 析 这 个 图 表 ,就 会 发 现 其 中 一 些 个 性 化 定制 的 从 应 用 中 读 取 数 据 的 处 理 逻 辑 , 用 
来 完成 解析 数据 、 准 备 事件 等 工作 。 对 不 同 的 Beat, 处 理 是 不 用 的 ,因为 从 应 用 中 获取 数据 
有 赖 于 程序 提供 了 什么 样 的 渠道 。 对 每 一 个 Beat ,各 自 解析 获得 的 数据 的 方式 可 能 是 不 同 
的 。 最 后 ,部 分 过 滤 数 据 将 会 被 用 于 准备 事件 。 这 是 个 性 化 定制 逻辑 中 的 一 部 分 。 作 为 
Beat 开发 者 ,应 该 注意 这 些 特殊 的 部 分 。 

除 此 之 外 还 有 一 些 通用 性 的 任务 。 其 中 之 一 是 发 布 者 ,用 于 把 准备 好 的 事件 发 送 到 配 
置 好 的 输出 管道 中 。 这 里 还 有 其 他 对 每 个 Beat 很 有 必要 的 一 些 任务 要 做 ,它们 都 在 
Libbeat 架构 中 提供 (可 将 它们 认为 是 一 个 帮助 库 ,用 来 提供 最 通用 的 所 有 Beat 都 需要 的 包 
文件 package) 。 下 面 简单 列 出 一 些 组 件 。 

。 配置 Configuration: 记 住 ,有 一 个 针对 所 有 Beat 文件 的 配置 信息 文件 (filebeat. yml、 
packetbeat. yml 等 )。 类 似 地 ,也 有 一 个 针对 新 生成 的 Beat 文件 的 类 似 myrcustomr 
beat. yml 的 配置 文件 。 它 有 助 于 Beat 用 户 完成 设置 ,例如 从 哪里 获取 信息 ,主机 
hostname, 端 口号 和 授权 相关 的 细节 信息 以 及 数据 将 要 发 送 到 的 目的 地 等 。 

。 发 布 者 Publisher: 个 性 化 定制 的 逻辑 部 分 在 准备 一 个 事件 时 ,需要 向 发 布 者 
Publisher 发 送 事件 日 志 log。 这 个 发 布 者 是 由 Libbeat 架构 提供 的 ,用 于 读 取 配 置 
信息 并 将 数据 发 送 到 各 自 的 目的 地 。 

。 日 志 Logging: 每 一 个 好 的 应 用 程序 都 要 有 一 个 日 志 管理 机 制 。 开 发 者 需要 属性 
log4J 库 等 日 志 管理 工具 ,它们 能 在 Java 应 用 程序 中 为 我 们 提供 日 志 处 理 方面 的 帮 
助 。Libbeat 架构 为 Beats 提供 日 志 , 不 需要 为 此 写 特 别 的 代码 。 

。 守护 进程 Daemon: 多 数 情况 下 ,可 能 想 以 后 台 服 务 或 者 守护 进程 Daemon 的 方式 来 
运行 Beat ,以 便利 用 操作 系统 为 此 提供 的 一 些 便利 (如 自 举 系统 、 提 供 事件 日 志 等 ) 。 
对 于 自 定义 的 Beat, Libbeat 有 内 置 的 对 Deamons 的 支持 。 对 于 以 服务 方式 运行 
Beat ,几乎 无 须 做 什么 事情 。 

下 面 将 要 学 习 如 何 按照 我 们 的 选择 生成 一 个 Beat。 除 了 那些 (少量 的 ) 个 性 化 处 理 逻 

辑 需 要 自己 编写 之 外 ,这 种 生成 的 Beat 具有 几乎 所 有 其 他 相关 的 部 件 。 





7.3.2 创建 一 个 Beat 


Beat 可 以 从 任何 地 方 ( 可 以 是 一 个 进程 .一 个 应 用 程序 .一 个 程序 中 的 组 件 、 一 个 网 页 、 
一 个 信息 聚合 RSS feed ,等 等 ) 来 输入 数据 D。 只 要 是 数据 是 有 用 的 ,就 值得 分 析 。 
在 前 面 的 章节 中 ,为 Logstash 生成 输入 插件 时 ,是 使 用 openweathermap. org API 来 获 


@ 译 者 注 : RSS feed 是 一 种 基于 XML 技术 的 聚合 标准 ,是 要 获取 消息 的 网 站 内 容 的 种 子 。 获 得 了 RSS feed 并 添 
加 到 你 的 RSS 聚合 器 中 ,RSS 聚合 器 就 会 定时 按照 RSS feed 解析 相应 网 站 上 的 内 容 。 
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一 个 城市 的 数据 并 作为 例子 的 。 为 了 利用 同样 的 API 服务 参数 endpoint@ ,我 们 来 生成 
一 个 Beat。 
假设 已 经 从 openweathermap. org 获得 了 用 于 读 取 数据 的 API key。 利 用 它 ,就 可 以 生 
成 一 个 Beat。 按 如 下 几 个 简单 步骤 来 生成 一 个 Beat。 但 在 这 之 前 ,需要 安装 一 些 相 关 的 依 
赖 | 它们 是 生成 Beat 需要 使 用 的 几 个 相关 工具 ) 。 
。 Go 语言 : 大 多 数 Beat 使 用 Go 编程 语言 ,这 是 一 个 开源 的 语言 ,可 在 https: 
pe org/ 获 取 。 下 载 后 ,按照 步骤 ,可 以 在 计算 机 上 安装 它 。Windows 和 Mac 
OS X 系统 提供 安装 程序 ,不 必 做 任何 额外 的 设置 操作 (包括 如 何 将 Go 纳入 PATH 
变量 中 等 )。 对 于 Linux 环境 ,需要 在 安装 Go 的 过 程 中 设置 PATH 变量 ,方法 
如 下 : 


exPort PATH=$ PATH: /usr/local/go/bin 
如 果 个 性 化 定制 了 安装 Go 的 位 置 ,就 需要 按照 如 下 方法 进行 设置 ; 


export GOROOT=$HOME/installations/go 
exPort PATH=$ PATH:$ GOROOT/bin 


个 性 化 定制 了 安装 路 径 后 ,GOROOT 一 定 要 设置 。 也 应 该 设置 GOPATH 变量 , 它 用 
来 指向 存放 工程 的 工作 空间 workspace。 


export GOPATH=$ HOME /workspace 


。Python: 可 能 大 家 已 经 对 这 个 强 有 力 的 编程 语言 很 熟悉 了 , 它 可 以 在 https: 
//www. python. org 获取 。 可 以 从 这 里 找到 适合 自己 应 用 环境 的 安装 程序 包 , 下载 
并 安装 它 。 

。 Virtualenvy@: 这 个 工具 可 以 隔离 Beat 工程 ,以 便 在 运行 Beat 时 不 影响 其 他 的 工程 
项 目 。 它 可 以 在 这 里 获取 : https://virtualenv. pypa. io/en/stable/ 。 推 荐 使 用 pip， 
$ sudo pip install virtualenv 


。 获取 并 安装 Cookiecutter9: 这 是 一 个 基于 命令 行 的 应 用 程序 ,可 以 使 用 工程 模板 来 
生成 工程 。 可 以 在 Github 上 获取 它 : https://github. com/audreyr/cookiecutter。 
可 以 使 用 pip、easy_install 或 者 brew 完成 安装 (在 Mac OS X 环境 中 ) 。 


@ 译 者 注 : API endpoint 又 称 “ 端 点 ”, 表 示 API 的 具体 网 址 。 
四 译 者 注 : 通过 创建 独立 Python 开发 环境 的 工具 ,Virtualenv 可 解决 依赖 ,版 本 以 及 间接 权限 问题 。 
加 译 者 注 : Cookiecutter 是 一 款 快 速 建立 工程 模板 的 Python 命令 行 工具 。 
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$ sudo pip install cookiecutter 
$ sudo easy install cookiecutter 


$ brew install cookiecutter 


pip 命令 是 一 个 包 管理 器 ,用 于 安装 Python 程序 包 。 如 果 没 有 如 上 这 些 可 用 的 工具 ， 
建议 安装 其 中 的 某 一 项 。 

一 旦 已 经 安装 了 如 上 这 些 工 具 . 在 生成 Beat、 利 用 生成 的 Beat 工作 时 ,就 应 该 不 会 有 什 
么 问题 了 。 请 按照 如 下 步骤 进行 : 

(1) 获取 beat generator 和 Libbeat, 方 法 如 下 : 


go get github.com/elastic/beats 


运行 上 述 命令 后 ,可 能 会 得 到 错误 信息 :“package github. com/elastic/beats: no 
buildable”。 可 以 不 用 管 它 ,仍旧 可 以 继续 构建 Beat。Go 源 文件 在 这 里 : /Users/ravi. 
gupta/ workspace/src/github. com/elastic/beats。 


该 命令 用 于 下 载 beat generator 和 Libbeat, 并 放 在 如 下 位 置 : 


workspace 
-Src 
-github.com 


-elastic 
(2) Go 编程 语言 有 诸多 很 方便 的 特性 ,其 中 之 一 就 是 使 用 Github。 如 果 有 Github 账号 ， 
可 以 使 用 它 登 录 。 在 自己 的 工作 空间 中 ,在 github. com 文件 夹 下 ,为 你 的 用 户 名 生成 一 个 文 
件 夹 ,在 这 个 数据 仓库 下 ,将 来 可 以 存放 生成 的 内 容 。 最 终 的 文件 夹 结 构 类 似 如 下 形式 : 
workspace 


-github.com 


-Your-user-name 
在 命令 行 方式 下 ,进入 如 下 文件 夹 ; 
workspace/src/github.com/your-user-name 


使 用 packt 作为 我 们 的 用 户 名 。 
(3) 在 workspace/src/github. com/packt 文件 夹 下 ,使 用 Cookiecutter 生成 一 个 Beat。 


cookiecutter $GOPATH/src/github.com/elastic/beats/generate/beat 


上 述 命令 将 会 按照 我 们 的 选择 (Beat 名 、 包 packet 名 等 ) 生 成 Beat。 下 面 是 以 
Weatherbeat 为 Beat 名 的 一 个 例子 : 
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project name [Examplebeat]: Weatherbeat 
github name [your-github-name]:packt 
beat [weather]: 

beat path [github.com/packt]: 


full name [Firstname Lastname]: 


(4) 一 旦 cookiecutter 已 经 通过 命令 的 方式 运行 ,就 会 在 src/github. com/packt/ 
weatherbeat 文件 夹 下 生成 Weatherbeat。 这 个 Beat 是 一 个 没 被 加 工 的 模板 ,需要 继续 在 上 面 
完成 一 些 工 作 。 首 先 , 需 要 获取 必要 的 依赖 dependency。 进 入 到 beat 文件 夹 weatherbeat ,运行 
如 下 make 命令 ， 


cd weatherbeat 
make setup 


运行 make 后 ,将 会 为 我 们 的 工程 增加 依赖 dependency。 现 在 ,这 个 Beat 已 经 准备 好 
了 ,但 尚未 有 个 性 化 定制 逻辑 部 分 ( 即 从 openweathermap. org 中 获取 一 个 城市 的 天 气 信 
息 ) 的 代码 。 

(5) 最 后 一 条 命令 用 于 构建 Beat 源码 ,输出 一 个 可 以 运行 的 文件 。 在 相同 的 文件 夹 
下 ,执行 如 下 命令 : 


make 
这 将 会 为 我 们 的 Beat 生成 一 个 可 执行 文件 。 
7.3.2.1 前 析 Beat 


到 此 为 止 ,我 们 生成 的 Beat 已 经 具有 了 除 获取 一 个 城市 气象 信息 这 个 处 理 逻 辑 以 外 的 
所 有 内 容 了 。 我 们 来 看 一 看 这 个 Beat 的 文件 夹 结构 : 


Ml weatherbeat 

» MM _meta 

» Ml beater 

» Ml buld 

» Ml confg 
CONTRIBUTING.md 

» docs 
LICENSE 
main_test.go 
main.go 

站 Makefile 

README.md 


» Dl tests 
» MM vendor 
大 weatherbeat 
国 weatherbeat.fullyml 
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一 个 Beat 应 用 由 如 下 部 分 组 成 : 
。 执行 部 分 executable: 
4 在 这 里 例子 中 ,weatherbeat 是 用 于 运行 Beat 并 从 openweathermap. org 中 获取 数 
据 的 执行 文件 。 它 将 数据 发 送 到 Elasticsearch 或 Logstash 中 。 
。 模板 template 和 配置 文件 configuration file: 
4 每 个 Beat 都 有 一 个 二 beat 二 . yml 文件 和 一 个 二 beat 二 . full. yml 文件 ,含有 针对 
该 Beat 的 模板 配置 文件 。 
4 在 一 beat 二 .template. json 文件 中 有 mapping 模板 。 
。 实体 点 entry point 和 个 性 化 的 处 理 逻 辑 : 
4 main. go 文件 是 源码 中 的 入 口 点 entry point, 它 内 部 调用 beater/ 一 beat 二 . go 文 
件 , 后 者 用 于 实现 Beater 界面 。 





全 每 一 个 Beat 都 需要 实现 Beater 的 界面 interface, 而 interface 是 由 Libbeat 架构 
所 提供 的 。 





。 位 于 docs 文件 夹 下 的 说 明文 档 ( 如 README 等 ) 。 
。 位 于 test 文件 夹 下 的 测试 文件 。 
。 必要 的 项 目 依赖 文件 和 构建 助手 。 
4 在 vendor 文件 夹 下 ,有 一 个 完整 的 Beat 包 , 它 用 于 为 生成 的 Beat 提供 项 目 依赖 
支持 。 
4 在 build 文件 夹 下 有 必要 的 用 于 构建 Beat 的 工具 。 


7.3.2.2 Beat 配置 


对 于 每 个 生成 的 Beat, 在 过 beat 二 . yml 文件 中 均 有 一 些 可 用 的 配置 。 在 这 里 ， 
weatherbeat. yml 文件 含有 这 些 配 置 。 为 操作 简便 ,默认 输出 到 Elasticsearch 及 相应 周期 
〈 时 间 间 隔 ) 的 属性 均 是 打开 的 (enable) 。 


weatherbeat: 
#Defines how often an event is sent to the output 
period: 5s 
output .elasticsearch: 
#Array of hosts to connect to. 


hosts: ["localhost:9200"] 


我 们 的 Beat 使 用 周期 period 作为 时 间 间 隔 , 周 期 性 地 把 事件 发 送 到 Elasticsearch 中 。 
这 里 还 有 其 他 一 些 默 认 运 行 的 配置 ,用 于 记录 日 志 , 控 制 Logstash 输出 ,设置 tags、shipper 
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名 字 等 。 





人 默认 情况 下 ,向 文件 输出 日 志 的 属性 是 打开 的 Cenable) ,因此 日 志 不 会 在 控制 台 
上 和 输出。 为 了 使 增加 的 日 志 为 有 效 状态 .可 以 使 用 logging. to_syslog: true。 











所 有 的 完整 配置 和 相关 文档 均 可 在 weatherbeat. full. yml 中 找到 。 
7.3.2.3 weatherbeat. go 文件 


一 个 Beat 都 被 使 用 如 下 的 方法 设置 为 类 型 type: 


type weatherbeat struct { 
done chan struct{} 
config config.Config 
client publisher.Client 


} 
这 个 Beat 使 用 weatherbeat. yml 中 的 New() 方 法 来 读 取 相应 的 配置 信息 


func New(b * beat.Beat, cfg * common .Config) (beat.Beater, error) {...} 


由 于 该 文件 是 Beat 功能 驻 留 和 实际 执行 部 分 ,所 以 它 是 全 部 Beat 文件 中 最 重要 的 一 
个 文件 。 该 文件 应 基于 Beat 命名 。 本 例 中 ,该 文件 被 命名 为 weatherbeat. go( 位 于 beater 
文件 夹 下 》5 

它 实 实现 了 Beater 界面 功能 。Beater 界面 有 两 个 必须 要 实现 的 方法 : 

。 Run (b x Beat) error: 该 方法 含有 实际 的 处 理 逻 辑 , 当 Beat 启动 时 自动 运行 

。 Stop ( ): 当 相 应 的 Beat 停止 时 (使 用 Ctrl 十 C 命令 ) ,调用 此 方法 。 

如 果 打 开 weatherbeat. go 文件 ,会 发 现 上 述 两 个 方法 已 经 实现 了 。Run( ) 方 法 在 每 
个 n 秒 的 时 间 间 隔 (该 阔 值 在 weatherbeat. yml 中 定义 ) ,生成 一 个 事件 ,并 将 该 事件 提交 
给 发 布 者 ( 它 用 于 发 布 该 事件 到 预先 定义 好 的 目的 地 ,而 该 目的 地 是 在 配置 文件 中 已 经 
定义 好 的 ) 。 


7.3.2.4 实现 Beat 的 逻辑 


现在 该 轮 到 处 理 我 们 定制 的 逻辑 部 分 了 。 它 是 weatherbeat 的 Run() 方 法 中 的 一 部 
分 。 在 内 核 中 ,需要 从 API 服务 参数 endpoint 读 取 数据 .按照 某 种 适当 格式 解析 它 ,准备 事 
件 , 并 完成 发 布 。 

API 服务 参数 endpoint 可 以 从 如 下 方式 得 到 : 


http://api.openweathermap.org/data/2.5/weather? q=cityNameg&appid=key 
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下 面 看 看 实现 插件 的 主要 步骤 。 

1. 增加 配置 

我 们 需要 从 用 户 那里 得 到 cityName 和 API key。 在 weatherbeat. yml 配置 文件 中 , 增 
加 如 下 两 个 配置 信息 : 

weatherbeat : 


CityName: "" 


key: ™" 

之 后 ,运行 如 下 命令 : 

make update 

现在 ,完成 了 对 位 于 配置 文件 夹 下 的 配置 文件 config. go 的 更 新 。 配 置 文件 的 架构 类 

型 看 起 来 是 下 面 这 样 的 : 

type Config struct { 
Period time.Duration config:"period" 
CityName string config:"cityName" 
Key string config:"key" 

} 

已 经 增加 了 两 项 配置 : CityName 和 Key, 它 们 都 能 在 beat 中 应 用 。 

2. 从 API 读 取 数据 

需要 导 人 (import)net/http 包 , 用 于 读 取 Web 服务 器 中 的 数据 。 需 要 导入 io/ioutil 包 


来 完成 读 取 输入 数据 的 工作 。 
首先 ,在 Run 函数 中 ,为 cityNameQ 和 key 生成 两 个 变量 : 
cityName:=bt.config.CityName 
key :=bt.config.Key 
由 于 已 经 在 Config 架构 中 增加 了 它们 ,因此 能 通过 使 用 bt. config 得 到 数据 。 之 后 ,使 
用 http. Get() 方 法 完成 调用 : 
Url 本 
"http://api.openweathermap.org/data/2.5/weather?q="+cityName+"&appid="+key 
response, error :=http.Get (url) 


defer response.Body.Close() 
body, error :=ioutil.ReadAll (response .Body) 


四 译 者 注 : 原文 为 city。 
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现在 ,数据 体 将 会 包含 输入 数据 。 如 果 出 现 问题 ,会 在 error 变量 中 得 到 相关 的 错误 提 
示 信 息 。 


3. 解析 数据 

数据 体 变量 (可 以 是 数组 或 字 节 的 形式 , 它 实际 上 应 该 是 一 个 转换 成 字符 串 的 JSON 数 
据 块 ) 包 含 的 是 Web 服务 调用 的 输出 数据 。 在 Go 语言 中 ,使 用 Unmarshaling 方法 将 一 个 
字符 串 或 字 节 转换 为 JSON 格式 。 为 完成 这 个 任务 ,需要 设置 一 个 未 来 将 要 被 执行 映像 
mapping 的 类 型 type, 它 使 用 关键 词 架 构 定义 。 对 于 每 个 JSON 响应 ,类 型 type 的 定义 
如 下 : 


type WeatherDataTypes struct { 
Coord CoordTypes 
Weather [ ]WeatherTypes 
Base string 
Main MainTypes 
Visibility int 
Wind WindTypes 
Clouds CloudTypes 
Dt int 
Sys SysTypes 
Id int 
Name string 
Cod int 

} 

type CoordTypes struct { 
Lat float64 
Lon float64 

} 

type MainTypes struct { 
Temp float64 
Pressure int 
Humidity int 
Temp min float64 
Temp max float64 

} 

type WindTypes struct { 
Speed float64 
Degree int 

} 

type CloudTypes struct { 
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All int 

} 

type SysTypes struct { 
Id int 
Message float64 
Country string 
Sunrise int 
Sunset int 

} 

type WeatherTypes struct { 
Id int 
Main string 
Description string 
Icon string 


} 


这 些 结构 类 型 是 在 Run() 功 能 外 定义 的 。 使 用 主 类 型 WeatherDataType, 能 将 JSON 
返回 值 转换 为 一 个 适当 的 结构 : 
Message := (*json.RawMessage) (&body) 


Var weatherData WeatherDataTypes 


json.Unmarshal (* Message, &weatherData) 


现在 ,weatherData 变量 将 拥有 从 JSON 来 的 全 部 字段 ,它们 可 以 被 用 来 做 进一步 处 
理 , 以 便 生成 事件 event。 上 述 工作 需要 导入 (import)encoding/json 数据 包 。 

4. 准备 事件 event 

使 用 common. MapStr ,准备 一 个 能 发 送 到 发 布 者 Publisher 的 JSON 对 象 类 型 type。 
对 于 事件 event, 只 是 把 sunrise、sunset、temperatures 增加 到 这 里 (参见 下 面 的 代码 )。 添 加 
了 所 有 字段 的 Beat 可 在 这 里 获取 : https://github. com/kravigupta/mastering-elastic- 
stack-code-files/tree/5. 1. 1/Cha pter07/weatherbeat 。 


event :=Common .MapStri 


"@ timestamp": common.Time (time.Now()), 
"type": b.Name, 

"sunrise": weatherData.Sys.Sunrise, 
"sunset": weatherData.Sys.Sunset, 
"temp": weatherData.Main.Temp, 








全 每 一 个 事件 对 象 event object 应 有 一 个 时 间 惟 timestamp (一般 是 当前 时 间 ) .一 
个 类 型 type( 设 置 为 Beat 名 称 ) 。 











第 7 章 个 性 化 定制 Elastic Stack 过 


i 
49 1 


a 





S. 发 布 事件 event 
最 后 ,使 用 下 面 的 方法 发 布 事件 event: 


bt.client.PublishEvent (event) 


这 将 会 向 发 布 者 Publisher 发 送 事 件 对 象 event object。Publisher 用 于 向 已 经 定义 好 
的 目的 地 发 送 相关 内 容 。 
生成 的 Beat 将 以 类 型 下 面 的 方式 被 执行 (只 能 调用 Run() 方 法 )。 


func (bt * Weatherbeat) Run (b * beat.Beat) error { 
logp.Info("weatherbeat is running! Hit CTRL-C to stop it.") 
bt.client =b.Publisher.Connect () 
ticker :=time.NewTicker (bt .config.Period) 
for { 
Select { 
case<-bt.done: 
return nil 
Case <-ticker.c: 
} 
cityName:=bt .config.CityName 
key :=bt.config.Key 
url := 
"http://api.openweathermap.org/data/2.5/weather q="+cityName+"&appid="+key 
fmt .Println ("URL is " +url) 
resp, err :=http.Get (url) 
if err !=nil { 
fmt.Println("Something went wrong") 
} 
defer resp.Body.Close () 
body, err :=ioutil.ReadAll (resp.Body) 
Message := (x* json.RawMessage) (gbody) 
var weatherData WeatherDataTypes 
json.Unmarshal (* Message, &weatherData) 
event :=common.MapStr{ 
"@timestamp": common.Time (time.Now()), 
"type": b.Name, 
"sunrise": weatherData.Sys.Sunrise, 
"sunset": weatherData.Sys.Sunset, 
"temp": weatherData.Main.Temp, 
} 
bt.client.PublishEvent (event) 


证 
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logp.Infol("Event sent") 


} 
需要 导入 的 import 部 分 如 下 : 


import ( 
na 
"time" 
"io/ioutil" 
"net/http" 
"strconv" 
"github.com/elastic/beats/libbeat/beat" 
"github.com/elastic/beats/libbeat/common" 
"github.com/elastic/beats/libbeat/logp" 
"github.com/elastic/beats/libbeat/publisher" 
"github.com/packt/weatherbeat/config" 


7.3.2.5 运行 Beat 


现在 ,前 期 准备 工作 已 基本 完成 ,还 需要 使 用 make 方法 来 构建 Beat。 如 果 Beat 源 发 
生 了 变化 , 则 需要 使 用 make 来 再 次 构建 Beat。 到 Beat 文件 夹 下 ,用 如 下 命令 来 运行 beat 。 


./weatherbeat 


现在 ,Beat 将 会 在 设 定 的 时 间 开 启 搜 集 数 据 的 工作 ,并 将 数据 发 送 到 Elasticsearch。 在 
Elasticsearch 的 日 志 中 ,会 找到 类 似 这 样 的 信息 : 

[2017-02-10T15:11:54,839] [INFO ] [0o.e.c.m.MetaDataMappingService] [A5S5Dx11] 

[weatherbeat- 2017.02.10/9tOloFBwTzePDBEC7YXCtA] create mapping 

[weatherbeat] 

它 将 会 尝试 为 索引 weatherbeat 生成 映像 mapping( 如 果 不 存在 )。 也 能 在 Kibana 检查 
发 送 到 Elasticsearch 的 数据 。 在 Kibana 的 discover 标签 页 中 .选择 weatherbeat- x 索引 模 
式 , 会 看 到 由 我 们 生成 的 Beat 所 发 送 的 日 志 。 

从 下 图 能 发 现 , 这 里 有 一 些 由 Beat 生成 的 日 志 事 件 (log events) ,表明 构建 的 Beat 是 可 
以 正常 工作 的 。 通 过 在 Kibana 中 使 用 不 同 的 方法 ,能够 进一步 使 用 数据 来 完成 可 视 化 。 





人 默认 情况 下 ,weatherbeat 的 索引 名 可 能 是 : -weatherbeat-% {十 yyyy. MM. dd}。 
如 果 想 改变 它 , 可 以 在 weatherbeat. yml 配置 文件 中 修改 索引 设置 。 
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7.4 扩展 Kibana 


搭建 Elastic Stack 环境 时 ,做 一 些 必 要 的 修改 ,可 使 它 能 满足 个 性 化 的 要 求 。 在 大 多 数 
情况 下 , 相 比 于 Stack 中 的 其 他 组 件 , 对 Elasticsearch 所 做 的 更 改 是 比较 小 的 。 作 为 Stack 
组 件 中 面向 最 终 用 户 的 Kibana 部 分 ,其 变化 往往 是 最 多 的 。 如 果 没 有 什么 复杂 需求 ,客户 
端 Client( 作 为 一 个 服务 提供 者 时 ) 和 希望 能 自 定义 用 户 的 接口 UI, 以 满足 公司 对 前 端 设计 的 
个 性 化 需求 。 

Elastic Stack 提供 各 种 各 样 的 方式 ,满足 定制 和 扩展 Kibana 的 需求 (可 以 写 Kibana 插 
件 , 创 建新 的 可 视 化 组 件 , 修 改 源 代码 等 )。 要 做 到 这 些 , 必须 要 熟悉 HTML、CSS、 
Javascript、Node. js、AngularJS 以 及 相关 的 用 于 图 表 和 可 视 化 的 库 。Kibana 基本 上 是 基于 
Node. js 的 应 用 程序 。 了 解 Node.js, 将 有 助 于 了 解 和 定制 Kibana。 

本 节 中 将 开发 一 个 改变 Kibana UI 外 观 的 插件 。 为 简单 起 见 , 只 在 运行 时 修改 Kibana 
每 个 页 面 的 标题 。 通 过 这 个 例子 可 看 到 开发 这 样 的 插件 是 多 么 容易 的 一 件 事 。 如 果 你 想 检 
出 (check out) 相关 的 源 代码 ,可 以 在 如 下 的 Github 上 得 到 。https://github. com/ 
kravigupta/mastering-elastic-stack-code-files/tree/5. 1. 1/Chapter07/branding-plugin。 插 
件 的 名 称 可 定制 , 它 可 以 作为 样 例 来 定制 Kibana。 所 有 已 知 的 Kibana 插件 都 在 这 里 列 出 : 
https://www. elastic. co/guide/en/kibana/5. 1/known-plugins. html。 

在 开始 后 续 工 作 前 ,建议 设 定 好 Kibana 开发 环境 。 可 从 Github 上 克隆 Kibana 的 源 代 
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码 ,CONTRIBUTING. md 文件 包含 设置 开发 环境 的 所 有 步骤 。 
7.4.1 设置 Kibana 开发 环境 
为 了 设置 开发 环境 ,应 该 从 Github 上 析出 Kibana 工程 .并 将 其 克隆 到 你 的 机 器 上 。 


git clone https://github.com/{username}/kibana.git 


定位 到 最 新 克隆 的 Kibana 源 代码 ,切换 到 将 要 使 用 的 分 支 上 。 这 里 ,使 用 的 是 5.1 版 
本 (生成 了 一 个 本 地 分 支 ) ,例如 kibana-local, 指 向 各 自 的 分 支 ,如 下 所 示 : 


$ git checkout -b kibana- local origin/5.1 
安装 Kibana 需要 的 节点 版 本 。 


nvm install "$ (cat .node-version)" 





O 如 果 没 有 安装 nvm, 可 以 使 用 下 面 的 命令 来 完成 : curl-o-https://raw. 


githubusercontent. com/creationix/nvm/v0. 32. 1/ install. sh | bash。 





Kibana 5. 1. X 版 本 使 用 Node. js v6. 9.0, 可 根据 操作 系统 环境 ,从 https://nodejs. 
org/en/download/releases/ 直接 下 载 相应 版 本 的 node.js。 为 了 能 直接 生成 插件 ,应 该 确保 
Kibana 使 用 的 node.js 版 本 与 此 一 致 。 

之 后 ,需要 安装 节点 node 的 依赖 dependency: 


npm install 


Kibana 将 会 从 Elasticsearch 中 读 取 数 据 。 应 确保 运 
样 的 版 本 。 在 开发 模式 下 ,最 好 只 从 开发 环境 中 安装 和 运 
以 运行 Elasticsearch。 


行 的 Kibana 和 Elasticsearch 为 同 
行 Elasticsearch。 如 下 的 命令 可 


npm run elasticsearch 


如 果 不 想 使 用 这 个 Elasticsearch 的 实例 instance, 则 可 以 像 Kibana 一 样 ,运行 自己 的 
setup 。 


一 旦 Elasticsearch 可 用 ,就 完成 了 setup。 可 以 运行 Kibana 开发 服务 。 
npm run 


在 默认 状态 下 ,这 将 会 在 https://localhost: 5601 运行 Kibana( 基 于 HTTPS 协议 ) 。 
如 果 收 到 错误 信息 (SSL in logs) , 则 可 在 配置 中 提供 Kibana 的 证 书 , 或 者 以 非 SSL 方式 运 
行 Kibana。 
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npm run -- --no-ssl 


上 述 这 些 操 作 , 在 任何 情况 下 (或 者 想 写 一 个 插件 ,或 者 想 修 改 Kibana 的 核心 代码 ) 都 
是 必要 的 。 为 了 加 速 插件 开发 的 进程 ,可 以 使 用 generator-kibana-plugin。 这 是 一 个 基于 
Yeomang 的 Kibana 插件 生成 器 。 





和 @ Ycoman(http://yeoman. io/) 是 帮助 工具 ,用 于 加 速 Web 应 用 的 开发 进程 。 它 
能 为 插件 或 应 用 程序 生成 一 个 框架 。 








使 用 如 下 命令 安装 Yeoman 生成 器 generator: 
npm install -g yo 

使 用 如 下 命令 ,安装 Kibana 生成 插件 : 

npm install -g generator-kibana-plugin 


现在 ,已 经 做 好 所 有 准备 工作 了 ,可 以 开始 生成 插件 了 。 
7.4.2 生成 一 个 插件 


一 旦 搭建 起 Kibana 开发 环境 并 安装 好 插件 生成 器 generator, 就 能 够 生成 插件 了 。 现 
在 ,在 我 们 克隆 Kibana 源 代 码 的 文件 夹 中 ,为 插件 生成 一 个 文件 夹 。 假 设 择 件 名 字 是 


es 
mkdir branding-plugin 
移动 到 上 述 文件 夹 中 ,执行 以 下 命令 : 
cd branding-plugin 
现在 ,使 用 Yeoman 生成 插件 : 
Yo kibana-pluging 


执行 时 ,Yeoman 将 会 询问 一 些 问题 (如 插件 名 称 、 插 件 描述 、 插 件 版 本 等 )。 这 里 需要 
指定 Kibana 版 本 : 


?Your Plugin Name branding plugin 
?Short Description A plugin to help modify Kibana for branding. 


?Target Kibana Version 5.0.0 


四 译 者 注 : Yeoman 定义 了 一 套用 于 提高 前 端 工程 师 效率 的 规范 工作 流 工具 。 
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该 命令 执行 将 会 用 一 些 时 间 。 执 行 后 ,将 会 得 到 插件 的 架构 skeleton。 


7.4.3 剖析 一 个 插件 
生成 的 Kibana 插件 将 会 有 类 似 下 图 这 样 的 结构 。 





该 插件 由 位 于 server 文 件 夹 的 服务 端 代码 和 位 于 public 文件 夹 的 Web APP 相关 的 代 
码 共同 组 成 。 还 有 一 个 node_modules 文件 夹 ,在 这 里 存放 着 该 插件 所 有 需要 的 依赖 


dependency。 
每 个 插件 必须 有 一 个 package. json 文件 , 它 包 含 该 插件 的 细节 信息 (如 示例 名 字 ,版 
本 、 依 赖 等 )。 如 果 没 有 这 个 插件 ,Kibana 就 不 会 以 开发 模式 运行 ,也 将 会 由 于 没有 


package.json 文件 而 得 到 错误 的 信息 。 
对 于 插件 而 言 关键 文件 是 index.js, 这 是 一 个 综合 了 所 有 内 容 的 主 和 人口 点 ,类 型 如 下 : 


import exampleRoute from './server/routes/example'; 
export default function (kibana) { 
return new kibana.Plugin({ 
require: ['elasticsearch'], 
uiExports: { 
app: { 
title: 'Branding Plugin', 
description: 'A plugin to help modify Kibana for branding.', 
main: 'plugins/branding plugin/app' 
}, 
hacks: [ 
'plugins/branding plugin/hack' 
] 
}, 
config(Joi) { 
return Joi.object ({ 
enabled: Joi.boolean() .default (true), 
}) .default (); 
}, 
init (server, options) { 


// Add server routes and initalize the plugin here 
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exampleRoute (server); 


} 


bs; 


文件 中 的 这 个 重要 部 分 定义 为 uiExports, 它 定义 了 想 要 用 插件 完成 的 事情 ,以 及 插件 
实际 包括 的 内 容 。 

Kibana 提供 了 各 种 各 样 的 uiExports ,包括 增加 一 个 新 的 可 视 化 visualization, 设 置 、 导 
航 条 、 新 APP 等 。 所 有 可 用 的 uiExports 都 可 以 在 这 里 找到 : https://www. elastic. co/ 
guide/en/kibana/5.1/development-uiexports. html。 这 些 uiExports 分 为 如 下 三 组 : 

。 Hacks: 想 要 修改 kibana UI 或 者 拦截 UI 事件 时 ,可 能 需要 Hacks。 这 些 类 型 的 插 

件 适用 于 所 有 已 经 安装 在 Kibana 中 的 应 用 程序 。 
。 UI Registry provider: 有 大 量 的 针对 各 种 特征 的 ui/registry, 如 下 表 所 示 : 





uiExport 类 型 Registry 类 型 
visTypes ui/registry/vis_types 
fieldFormats ui/registry/field_formats 
spyModes ui/registry/spy_modes 
chromeNavControls ui/registry/chrome_nav_controls 
navbarExtensions ui/registry/navbar_extensions 
settingsSections ui/registry/settings_sections 
docViews ui/registry/doc_views 


在 上 面 的 表 中 ,第 一 列 是 uiExport 类 型 ,第 二 列 是 相应 的 每 个 uiExport 注册 时 提供 的 
registry。 

。 应 用 : Kibana 支持 系统 中 附加 的 完整 应 用 。 为 了 增加 一 个 应 用 ,需要 app 或 者 

appsuiExport 类 型 。 

最 常用 的 uiExport 类 型 是 visTypes, 它 可 为 Kibana hack( 它 能 按 需 修 改 系统 、 绑 定 事 
件 event 等 ) 生 成 新 的 可 视 化 应 用 。 

如 果 要 生成 使 用 简单 的 可 视 化 部 件 ( 如 一 个 水 平 条 或 其 他 类 型 可 视 化 部 件 ) 的 Kibana 
插件 , 则 可 以 使 用 visTypesuiExport。 

现在 再 回 到 index. js 文件 , 它 是 针对 播 件 的 入口 点 。 默 认 情 况 下 ,该 文件 含有 载 人 两 个 
uiExports-hack 和 app 的 代码 ,如果 不 需要 它们 .可 以 删除 pre-added uiExports。 被 修改 过 
的 index. js 文件 可 能 像 下 面 这 样 : 
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export default function (kibana) { 
return new kibana.Plugin({ 
uiExports: { 
hacks: [ 
"plugins/branding plugin/hack' 
] 
]} 
Ds; 
}; 
只 需要 hacks uiExport, 它 是 一 个 位 于 插件 public 文件 夹 下 的 .js 文件 中 的 一 部 分 。 为 
了 快速 检查 这 个 hack 是 否 能 正常 工作 ,尝试 将 一 个 log 放 到 hack. js 文件 中 ,并 检查 控制 台 
的 log 输出 。 如 果 能 显示 相应 的 日 志 , 就 能 确信 该 插件 能 正常 工作 了 。 
在 进行 该 项 工作 前 ,可 删 掉 已 经 无 用 的 server 文件 夹 。 另 外 , 除 hack. js 文件 外 ,在 
public 文件 夹 中 已 经 不 再 需要 什么 了 。 
可 以 按照 需要 修改 hack.js, 以 便 使 其 能 以 类 似 下 面 的 方式 输出 日 志 信息 : 


console.log('Loading the hack for branding plugin') 
之 后 ,从 插件 文件 夹 下 运行 服务 server。 


npm start 
这 将 会 以 开发 模式 启动 服务 server, 自动 在 Kibana 实例 中 安装 插件 。 它 支持 热 部 署 
hot deployment, 对 插件 文件 进行 修改 时 ,将 会 显示 类 似 如 下 的 日 志 信息 : 


[info] [optimize] Lazy optimization started 


[info] [optimize] Lazy optimization success in 14.42 seconds 
一 旦 在 浏览 器 中 载 人 Kibana, 就 会 在 控制 台 上 显示 如 下 信息 : 
Loading the hack for branding plugin. 


如 果 有 类 似 这 样 的 日 志 信息 输出 ,就 说 明 插件 已 经 正常 工作 了 ,下 面 就 可 以 着 手 完成 其 
他 功能 了 。 

为 其 加 标签 branding 时 ,还 有 很 多 针对 Kibana 需要 完成 的 修改 工作 (例如 变换 logo， 
修改 页 标题 ,修改 颜色 模式 ,定义 页 脚 ,设置 CSS 整体 布局 等 ) 。 总 的 来 说 ,在 浏览 器 中 见 到 
的 任何 部 分 都 可 以 被 加 以 修改 .完善 ,以 便 满 足 实 际 需求 。 为 便于 理解 .下面 通过 追加 
PACKT, 实 现 一 个 简单 的 修改 每 一 页 标题 的 小 例子 。 为 相关 代码 更 新 hack.js 文件 。 最 终 
的 hack.js 文件 应 该 类 似 如 下 : 


import $ from 'jquery'; 
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console.log ("Loading the hack for branding plugin."); 
$ (document) .ready (function(){ 
document .title =document .title +" -PACKT"; 
]) 


上 述 代 码 将 会 修改 载 和 人 的 Kibana 中 每 一 页 的 标题 title。 如 果 服 务 器 已 经 运行 ,一旦 修 
改 了 位 于 插件 文件 夹 中 的 文件 ,服务 器 就 会 自动 重新 启动 来 更 新 插件 。 刷 新 浏览 器 时 ,就 能 
看 到 页 标题 已 经 改变 了 。 





Management / Kibana 
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从 上 面 给 出 的 截图 中 可 以 看 出 ,这 是 一 个 非常 简单 的 对 页 面 标题 进行 修改 的 例子 。 其 
中 使 用 了 jQuery( 能 提供 强大 的 修改 DOM 的 功能 )。 修 改 标题 只 是 冰山 一 角 , 还 可 以 完成 
很 多 事情 。 注 意 ,使 用 jQuery 并 不 是 唯一 的 方式 ,也 不 是 完成 上 述 功能 的 极 简 方 式 。 如 果 
可 能 , 则 应 该 考虑 使 用 Node.js 模块 及 其 元 素来 完成 上 述 功能 。 


7.5 ”本章 狼 结 


如 果 讨 论 针 对 四 个 不 同 工 具 的 个 性 化 的 做 法 ,那么 应 该 用 四 个 不 同 的 部 分 来 分 别 说 明 。 
然而 ,这 里 只 是 希望 能 理解 一 个 工具 是 如 何 被 扩充 其 功能 的 。 

本 章 中 ,通过 学 习 如 何 组 织 一 个 插件 并 对 其 进行 个 性 化 的 定制 ,学 习 了 相应 的 扩充 
Elasticsearch 功能 的 方法 。 随 后 ,生成 了 一 个 Logstash 插件 ,用 于 从 openweathermap. org 
中 捕获 相应 的 数据 ,并 将 它们 发 送 到 Elasticsearch 中 。 我 们 也 学 习 了 如 何 生 成 从 同样 的 
Web 服务 器 中 搜集 数据 的 Beat。 最 后 ,搭建 了 Kibana 开发 环境 ,学 习 了 如 何 生成 基础 的 、 
通过 追加 PACKT 的 方式 修改 Kibana 页 面 标题 的 方法 。 

下 一 章 中 ,将 会 再 学 习 Elasticsearch 及 其 相应 的 API 的 用 法 ,将 会 学 习 如 何 获取 API 
及 其 API 的 作用 等 ,并 学 习 在 Elasticsearch v5. x 中 新 增加 的 Ingest 节点 的 方法 。 
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Elasticsearch API 


在 第 2 章 中 ,学习 了 Elasticsearch 的 基本 技术 ,了 解 了 Elasticsearch 如 何 工 作 , 以 及 它 
提供 了 哪些 API。 在 第 4 章 中 ,了 解 了 如 何 使 用 控制 台 (Console) ,并 且 开 始 使 用 Kibana 中 
的 聚合 。 

本 章 将 介绍 其 余 的 API, 将 使 用 控制 台 向 Elasticsearch 发 送 API 请 求 。 本 章 介绍 以 下 
主题 ， 

。 集群 API; 

。 Cat API; 

。 模块 ; 


。 Ingest 节点 ; 


。 Elasticsearch 客户 端 ; 
。 Java API。 
要 快速 熟悉 控制 台 , 可 以 参考 第 4 章 中 的 探索 开发 者 工具 Dev Tools 的 内 容 。 





8.1 集群 API 
集群 API 允许 我 们 了 解 集群 的 状态 、 健 康 状况 .统计 节点 统计 数据 \ 节 点 信息 等。 


8.1.1 集群 健康 状况 
想 要 了 解 集群 的 健康 状况 ,可 以 使 用 _cluster/health, 如 下 所 示 : 
GET /_cluster/health/library 


在 这 里 , GET 是 请 求 的 方式 ，cluster/health 是 参数 ,library 是 索引 名 。 执 行 此 调用 
将 返回 相关 信息 ,包括 节点 数据 节点 、 分 片 、 任 务 和 索引 状态 等 。 这 里 指定 了 library 索引 
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名 ,这 样 就 可 以 只 获取 library 索引 的 有 关 信 息 : 








区 DevTools History Settings Help 
CW Console 
[9) 1 ‘GET /cluster/heolth/librory pr 1-| 师 
2Z “cluster_name": "elasticsearch", 
[I 3 | "status": "green"， 
4 | "timed_out": false, 
[©] 5 "number_of_nodes": 2, 
6 | "number_of_data_nodes": 2, 
Ss 7 | "active_primary_shords": 5, 
8 "active_shards": 10, 
大 9 | "retocoting_shards": 9， 
18 ， "initiotizing_shards": 9， 
次 11 | "unassigned_shards": ©, 
12 ， “detayed_unassigned_shards": 9， 
13 ， "number_of_pending_tosks": @, 
14 。 "number_of_in_flLight_fetch": 9， 
15 "task_max_woiting_in_queue_mittis": 8， 
15 “active_shards_percent_as_number": 100 
17°|} 








响应 窗口 中 的 结果 显示 了 Elasticsearch 集群 的 健康 状况 为 绿色 ,同时 也 显示 了 其 他 信 
息 , 例 如 节点 信息 、 分 片 和 待 处 理 的 任务 。 

让 我 们 看 看 Elasticsearch 状态 的 其 他 值 意味 着 什么 : 

。 红色 : 某 些 或 所 有 主 分 片 未 被 分 配 或 未 就 绪 。 

。 黄色 : 所 有 主 分 片 都 已 被 分 配 ,但 是 一 些 或 全 部 副本 分 片 未 被 分 配 。 

。 绿色 : 所 有 主 分 片 和 副本 分 片 都 被 分 配 ,集群 已 经 完全 启动 。 





0 果 副 定义 ,就 可 以 在 控制 台中 使 用 这 样 的 请 求 来 定义 它们 : 
全 如 果 副 分 片 没有 定义 ,就 可 以 在 控制 台中 使 用 这 样 的 请 求 来 定义 它 人 


PUT /_settings 
{ "index": { 


"number of replicas": 1 





下 表 是 其 他 请 求 参数 及 其 描述 。 











level 要 返回 的 集群 健康 信息 的 级 别 , 可 选 的 值 有 : 集群 (默认 值 ) 、 索 引 或 分 片 
wait_for_status 可 能 的 值 有 红色 黄色 ,绿色 ,集群 将 会 等 待 其 健康 状况 变 为 指定 的 值 





; 要 等 待 多 少 分 片 被 迁移 ? 默认 不 等 待 , 值 为 0 表示 等 到 所 有 分 片 迁移 
wait_for_relocating_shards 为 止 





wait_for_active_shards 要 等 待 多 少 分 片 成 为 活跃 分 片 ? 默认 不 等 待 
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续 表 
请 求 参数 描述 
a | 等 待 指定 数量 的 节点 变 为 可 用 
和 | 如 果 提 供 了 wait_for_ xxx, 则 在 这 里 指定 等 待 的 秘 数 
mE 主 节点 提供 ;如 果 设置 local 一 true, 则 提供 本 地 节点 





要 使 用 这 些 请 求 参 数 ,只 需 添 加 一 个 查询 参数 并 提供 其 值 。 例 如 ,如 果 想 要 获得 索引 级 
别 的 集群 健康 状况 ,可 以 执行 以 下 命令 。 


GET cluster/health? level=indices 
执行 此 命令 将 返回 集群 中 索引 的 详细 信息 。 例 如 library 索引 的 信息 如 下 所 示 : 


"indices": { 
"library": { 
"status": "green", 
"number of shards": 5， 
"number of replicas": 1, 
"active primary shards": 5， 
"active shards": 10, 
"relocating shards": 0, 
"initializing shards": 0, 


"unassigned shards": 0 


} 
相似 地 ,要 使 用 wait_for_status ,可 以 执行 以 下 命令 : 


GET /clus ter/health? wai t for status=yellow 








还 可 以 使 用 多 个 参数 ,例如 : 








GET /_cluster/health?wait for_status=yellowglevel=indices 
在 等 待 状态 为 黄色 时 查看 索引 级 别 的 信息 。 
8.1.2 集群 状态 
这 个 API 提供 了 关于 集群 状态 非常 详细 的 信息 。 若 要 查看 完整 状态 ,可 以 执行 以 下 
命令 : 


GET /_cluster/state? pretty 
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如 果 想 将 请 求 范围 控制 在 指标 metric 和 索引 中 ,可 以 执行 以 下 命令 : 





GET /_cluster/state/ {metrics}/{indices}?pretty' 


指标 和 索引 都 可 以 包含 多 个 由 逗号 分 隔 的 条 目 。 指 标 可 以 是 版 本 、 主 
node、 节 点 .路 由 表 routing_table、 元 数据 数据 块 blocks、all( 用 于 全 部 指标 ) 。 


节点 master_ 








全 控制 台 会 自动 以 良好 的 缩 进 格式 打印 出 结果 。 因 此 , 当 使 用 控制 台 运 行 时 ,不 需 
要 在 API 请 求 的 结尾 处 添加 ?pretty。 











8.1.3 集群 统计 信息 


这 个 API 提供 了 有 关 集 群 中 索引 和 节点 中 基本 指标 的 信息 ,包括 分 片 数 、 节 点 数 、 内 存 
使 用 、 角 色 、JVM 信息 .CPU 使 用 情况 .插件 信息 等 。 可 以 使 用 下 面 的 URI 来 执行 : 


GET /_cluster/stats 


8.1.4 待 处 理 任务 


此 API 将 返回 群集 中 所 有 待 处 理 的 任务 。 如 果 没 有 待 处 理 任 务 , 它 将 返回 一 个 空 的 任 
务 数组 : 


GET /_cluster/pending tasks 


8.1.5 集群 重 路 由 
这 个 API 更 像 是 用 于 执行 任务 的 集群 的 命令 。 这 里 有 三 种 可 用 的 命令 move、 


allocate、cancel, 使 用 方法 是 _cluster/reroute。 


下 面 的 表格 列 出 了 每 个 命令 的 详细 信息 : 











命令 功 能 
oe | 将 分 片 从 一 个 节点 移动 到 集群 的 其 他 节点 
allocate | 将 一 个 未 分 配 的 分 片 分 配 到 某 个 节点 
cancel 取消 一 个 分 片 的 分 配 
让 我 们 看 看 下 面 这 个 例子 , 它 将 已 启动 的 分 片 从 一 个 节点 移动 到 另 一 个 节点 : 


POST cluster/reroute 


"commands": [ 
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{ 
"move": { 
"index": "library", 
"shard™”: 25 
"from node": "node 1", 


"to node": "node 2" 


} 


执行 此 命令 后 ,将 从 node_1 移动 library 索引 的 其 中 2 个 分 片 到 node_2 中 。 
8.1.6 集群 更 新 设置 


Elasticsearch 的 配置 信息 存储 在 config 目录 下 的 elasticsearch. yml 配置 文件 中 。 这 些 
配置 大 多 是 静态 的 。 这 里 也 包含 集群 的 动态 配置 ,可 以 由 相应 的 API 来 动态 配置 。 这 些 设 
置 可 分 为 两 类 ,一 种 是 持久 的 ,即使 在 一 个 集群 完全 重启 后 , 它 也 是 适用 的 ; 另 一 种 则 是 临时 
的 ,一 旦 集群 重新 启动 ,配置 将 会 丢失 。 临 时 设置 优先 于 持久 性 设置 ,持久 性 设置 优 于 
elasticsearch. yml 配置 文件 中 设置 。 推 荐 对 本 地 节点 使 用 elasticsearch. yml 配置 文件 来 配 
置 , 对 集群 级 别 的 节点 使 用 API 来 设置 (而 不 推荐 使 用 此 endpoint 参数 来 更 新 设置 )。 更 多 
关于 设置 的 文档 可 在 以 下 网 址 中 找到 : https://www. elastic. co/guide/en/elasticsearch/ 
reference/5. 1/settings. html 


为 获得 所 有 这 样 的 设置 ,可 以 使 用 _cluster/settings 参数 : 
GET /_cluster/settings 
要 设置 这 些 配置 ,可 以 使 用 相同 的 参数 ， 


PUT /_cluster/settings 
| 
"persistent": { 
"discovery.zen.minimum master nodes": 2 
} 
} 


8.1.7 节点 统计 信息 
与 集群 统计 信息 类 似 ,可 以 获取 一 个 或 多 个 节点 的 统计 信息 : 


GET /_nodes/stats 


天 
第 8 章 Elasticsearch API Oe 





在 默认 情况 下 ,程序 会 返回 所 有 节点 的 数据 ;可 以 指定 节点 ID 和 以 逗号 分 隔 的 其 他 值 ， 
例如 indices、os、process、jvm、transport、http,fs、thread_pool、breaker 等 。 


要 获得 具体 信息 ,可 以 执行 以 下 命令 : 





GET /_nodes/stats/fs,indices 
GET /_nodes/nodel/stats/fs,indices 


第 一 个 命令 将 获得 文件 系统 和 各 节点 的 索引 信息 ,第 二 个 命令 中 的 URI 只 会 得 到 
nodel 的 文件 系统 和 索引 。 


8.1.8 节点 信息 API 
这 个 API 可 以 获取 节点 信息 。 为 了 获得 一 个 或 所 有 节点 的 进程 信息 ,可 以 执行 以 下 


命令 : 


GET /_nodes/os,process 
GET /_nodes/ all/os,process 
GET /_nodes/nodel/os ,Process 


第 一 个 命令 和 第 二 个 命令 是 相同 的 ,它们 将 获得 所 有 节点 的 信息 。 上 述 命令 中 的 uri 
可 以 获取 操作 系统 和 进程 相关 的 信息 。 我 们 可 以 得 到 的 其 他 信息 有 settings、jvm、 
transport、http、thread_pool、plugins。 执 行 上 述 命 令 将 返回 以 下 内 容 : 


{ 
" nodes": { 
weotal™s: Es 
"successful": 1, 
"failed": 0 
}, 
"cluster name": "elasticsearch", 
"nodes": { 
"U4AMPVritSmmAyoHLb2dLzw": { 
"name": "nodel", 
"transport address": "127.0.0.1:9300", 
"host"s "127 00.1" 
td ek DE Df 
i Es lf et Ps 
"build hash": "5395e21", 
sroles™"s [ 
"master", 
"data", 


"ingest" 
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]， 

"os": { 
"refresh interval in millis": 1000, 
"name": "Mac OS x", 
"arch": "x86 64", 
"version": "10.0", 
"available processors": 4, 
"allocated processors": 4 

}, 

"process": { 
"refresh interval in millis": 1000, 
"id": 15188, 


"mlockall": false 


} 


要 在 集群 中 的 节点 上 获取 hot threads, 可 以 使 用 _nodes/hot_threads 或 者 _nodes/ 
nodeId/hot_threads。 


GET /_nodes/hot_threads 


8.1.9 任务 管理 API 


这 个 API 帮助 我 们 获取 集群 中 的 所 有 任务 ,或 者 一 个 特定 的 节点 的 任务 。 它 也 允许 我 
们 执行 一 些 操 作 。 要 获取 集群 中 所 有 任务 ,可 以 执行 以 下 命令 : 


GET /_tasks 


执行 后 ,会 返回 以 下 输出 信息 : 





{ 
"nodes":{ 


"UAMPVritSmmAyoHLb2dLzw" : { 


"name" : "nodel", 

"transport address" : "127.0.0.1:9300", 
“host™ s “L270.0.1", 
0 


"roles"s [ 
"master", 


"data", 
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"ingest" ]， 
wagks™ 5 

"UAMPVritSmmAyoHLb2dLzw:4129" : { 
"node" : "U4MPVritSmmAyoHLb2dLzw", 
id" :41295 
"type" : "transport", 
"action" : "cluster:monitor/tasks/lists", 
"start time in millis" : 1463037154374, 
"running time in nanos" : 1205000, 
"cancellable": false, 

}, 

"UA4MPVritSmmAyoHLb2dLzw:4130" : { 
"node" : "U4MPVritSmmAyoHLb2dLzw", 
"id" : 4130, 
"type”" : "direct", 
"action" : "cluster:monitor/tasks/lists[n]", 
"start time in millis" : 1463037154344, 
"running time in nanos" : 30881000, 
"cancellable": false, 
"parent task id": " U4MPVritsmmAyoHLb2dLzw:4129" 


Dr 


正如 所 看 到 的 ,集群 中 列 出 了 两 个 任务 ,也 可 以 从 指定 的 节点 中 获取 类 似 的 信息 : 
GET /_tasks?nodes=nodel 

甚至 可 进一步 使 用 actions 过 滤 结 果 ,例如 : 
GET /_tasks?nodes=nodelgactions=cluster: 


正如 所 看 到 的 ,集群 中 列 出 了 两 个 任务 ,也 可 以 从 指定 的 节点 中 获取 类 似 的 信息 。 
8.2 Cat API 
这 个 API 以 可 读 的 格式 (而 不 是 原始 的 JSON 格式 ) 显 示 节 点 、 索 引 、 字 段 . 任 务 和 插件 


的 详细 信息 。 利 用 Console, 还 可 以 在 控制 台 上 看 到 程序 是 如 何 为 表格 的 可 视 化 内 容 提供 
数据 的 。 
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所 有 这 些 命令 都 可 以 用 curl 以 GET 方式 执行 。 默 认 情 况 下 ,执行 这 样 的 命令 只 会 列 
出 数据 ,而 没有 表 头 。 为 了 显示 表 头 ,可 以 使 用 查询 参数 v: 
GET /_cat/health?v 
可 以 使 用 上 面 这 条 命令 而 不 用 以 下 命令 : 
GET /_cat/health 
还 可 以 在 查询 参数 h 中 提供 以 逗号 分 隔 的 值 来 指定 要 显示 哪些 字段 的 表 头 。 
让 我 们 看 看 可 用 于 操作 的 参数 选项 : 
。 _cat/indices: 该 选项 显示 了 诸如 健康 状况 ,索引 状态 .索引 名 称 、 主 分 片 、 副 分 片 文 
档 计 数 和 内 存 使 用 情况 等 索引 数据 ; 
GET /_cat/. indices?v&gh=health,status,index,docs.count, store 
下 图 是 控制 台 显示 的 结果 : 
History Settings Help 


_cat/indices Wwéh-health, status, index ,docs.count, store 1 health status index docs.count 
2 green open .kibona 
3 green open library z 
4 green open stones 53939 
5 








正如 我 们 所 看 到 的 , 它 显 示 了 每 个 索引 的 健康 状况 和 统计 信息 。 
。 _cat/master: 该 选项 显示 了 主 节 点 的 节点 ID、IP 地 址 和 主 节点 名 称 ,如 下 所 示 : 


GET /_cat/master?v 


执行 这 一 命令 将 返回 下 面 的 输出 : 





id host ip node 

UA4MPVritSmmAyoHLb2dLzw 127.0.0.1 127.0.0.1 nodel 

_cat/nodes: 该 选项 展示 了 集群 中 的 节点 信息 ,其 中 有 许多 可 以 使 用 的 表 头 ,比较 重 
要 的 有 id、pid、.name、master( 节 点 是 否 为 主 节点 )、 主 机 、ip、port、version(ES 的 版 
本 )、Build\jdk, 以 及 disk、heap、ram 和 文件 描述 符 信息 : 


GET cat/nodes?v 


结果 如 下 : 
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ip heap. Percent ram. Percent cpu load lm load Sm load 15m node.role 


master name 


Te2720.0 1 3 47—1 mdi * nodel 
127.0.0.1 13 47 =1 mdi -node2 
。_cat/health: 该 选项 显示 了 一 个 时 间 戳 位 置 的 集群 健康 状况 ,也 显示 了 全 部 的 节点 、 
分 片 和 任务 的 健康 状况 : 
GET /_cat/health 
结果 如 下 : 


1482738453 13:17:33 elasticsearch green221260000-100.0% 
可 以 指定 一 些 表 头 ,方式 如 下 所 示 : 


GET/_cat/health? v&h=cluster,status,node .total,shards,Pending_tasks 


结果 如 下 : 
cluster status node .total shards 
pending tasks elasticsearch green 2 12 0 


。 _cat/allocation: 该 选项 列 出 了 所 有 给 节点 .磁盘 空间 (消耗 ) 等 的 分 片 分 配 信 息 : 
GET _cat/allocation?v 

。 _cat/shards: 这 个 选项 可 以 详细 展示 每 个 节点 上 的 分 片 信 息 。 对 于 每 一 个 分 片 ,其 
中 显示 了 其 索引 、 类 型 状态、 文档 数量 、 内 存 使 用 情况 、 所 在 节点 等 信息 : 
GET _cat/shards?v 


执行 该 命令 ,将 输出 每 个 索引 中 的 分 片 详细 信息 。 在 下 面 的 列表 中 ,显示 了 一 些 
library 索引 的 信息 : 


Index shard prirep state docs store ip node 

library x 区 STARTED 0 159b 127.0.0.1 nodel 
library 2 p STARTED 0 159b 127.0.0.1 node2 
library 4 s STARTED 于 3.3kb 127.0.0.1 nodel 
library 4 P STARTED 1 3.3kb 127.0.0.1 node2 
library 3 时 STARTED 2 9.4kb 127.0.0.1 nodel 
library 3 p STARTED 2 9.4kb 127.0.0.1 node2 


。 _cat/aliases: 该 选项 显示 索引 中 所 有 配置 的 别名 : 


GET _cat/aliases 
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8.3 


| 全 如 果 没 有 定义 任何 别名 , 则 在 相应 窗 格 中 得 到 一 个 空白 的 输出 。 


要 得 到 一 个 特定 的 别名 ,可 以 使 用 _cat/aliases/{aliasname)。 











。 _cat/plugins: 该 选项 可 以 列 出 每 个 节点 上 已 安装 的 所 有 插件 的 名 称 、 版 本 、 持 件 类 
型 .插件 的 URL 等 信息 : 


GET cat/plugins 





| 全 如 果 没 有 使 用 任何 插件 , 则 在 相应 窗 格 中 得 到 一 个 空白 的 输出 。 





。 _cat/count: 该 选项 提供 了 一 个 索引 或 整个 集群 中 (默认 ) 的 文档 计数 。 为 了 得 到 索 
引 的 文档 计数 ,可 以 使 用 _cat/count/{indexname) , 仅 显 示 一 个 实时 文件 计数 。 
_cat/fielddata: 该 选项 通过 fielddata 列 出 每 个 数据 节点 上 的 堆 内 存 使 用 情况 。 我 
们 还 可 以 使 用 字段 查询 参数 来 指定 特定 字段 。 

_cat / nodeattrs: 如 果 自 定义 节点 属性 存在 ,该 选项 可 以 将 其 显示 出 来 。 

_cat / pending_tasks: 该 选项 将 列 出 集群 中 的 所 有 待 处 理 任务 。 此 列表 显示 了 
insertOrder .timeInQueue、priority ,source 等 数据 。 

_cat/recovery: 该 选项 显示 了 索引 分 片 做 的 所 有 恢复 操作 和 正在 进行 的 工作 。 对 于 
每 一 个 恢复 操作 ,会 显示 索引 、 分 片 ID 时间、 类 型 .所 处 的 阶段 (例如 已 完成 )、 源 和 
目标 主机 ,总 文件 和 字 节 数 、 快 照 和 存储 信息 等 数据 。 

_cat/repositories: 该 选项 可 以 列 出 所 有 存储 库 的 ID 和 类 型 。 

_cat/thread_pool: 该 选项 可 以 显示 每 个 节点 的 集群 级 线程 池 。 对 于 每 个 节点 ,可 以 
显示 其 中 活跃 (active) .排队 (queued) .拒绝 (rejected) 等 不 同 的 线程 。 可 用 的 线程 


池 有 bulk ,fetch_shard_started ,fetch_share_store flush ,force_merge generic, get、 


index \listener management、refresh ,search .snapshot .warmer 等 。 

_cat/segments: 该 选项 显示 分 片 中 各 个 分 段 的 底层 信息 。 

_cat/ snapshots/{repository) : 如 果 存 在 一 个 存储 库 ,该 参数 将 显示 它 的 所 有 快照， 
其 中 {repository} 指 定 了 存储 库 的 名 称 。 


Elasticsearch 模块 


每 一 个 伟大 的 项 目 , 其 功能 都 由 若干 个 模块 组 成 并 由 这 些 模块 支撑 , Elasticsearch 中 有 


很 多 这 样 的 模块 。 这 些 模 块 需要 一 些 设置 (无 论 是 动态 的 设置 ,或 者 使 用 elasticsearch. yml 
文件 完成 的 静态 设置 ) ,都 可 以 使 用 群集 API 来 更 新 。 让 我 们 来 看 看 不 同 的 模块 。 
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8.3.1 集群 模块 


为 了 保持 集群 的 负载 均衡 ,集群 模块 负责 如 何 将 分 片 分 配给 节点 并 处 理 这 些 分 片 在 集 
群 内 的 移动 。 这 个 过 程 被 称 为 分 片 分 配 。 此 模块 有 许多 设置 ,可 以 使 用 集群 API 动态 地 应 
用 这 些 设置 。 这 些 设 置 包括 集群 中 节点 分 配 的 设置 ,以 及 节点 内 部 的 设置 。 


8.3.2 Discovery 模块 


Discovery 模块 有 助 于 发 现 网 络 中 指定 集群 的 节点 。 在 elasticsearch. yml 配置 文件 中 
有 一 个 集群 名 称 的 配置 项 , 它 决定 了 当前 节点 是 哪个 集群 的 一 部 分 。 该 项 默认 名 称 是 


elasticsearch: 


cluster.name =elasticsearch 


所 有 配置 了 同一 集群 名 称 的 节点 将 归 为 同一 个 集群 ,该 模块 还 决定 了 哪个 节点 将 作为 
主 节点 。 


8.3.3 Gateway 模块 


有 些 时 候 我 们 的 集群 需要 恢复 ,在 这 种 情况 下 ,对 于 有 多 少 节点 应 该 在 恢复 开始 之 前 启 
动 等 问题 ,都 是 在 配置 信息 中 定义 的 。 这 些 设置 是 静态 的 ,必须 对 群集 中 的 每 个 节点 进行 
配置 。 


8.3.4 HTTP 模块 


所 有 的 Elasticsearch API 都 由 这 个 模块 在 HTTP 上 异步 地 开放 ,所 有 的 设置 都 是 静态 
的 ,是 在 elasticsearch. yml 配置 文件 中 定义 的 。 如 果 不 想 调用 REST 命令 ,也 可 以 禁用 此 模 
块 。 集 群 中 的 节点 使 用 Transport 模块 进行 通信 ,将 http. enabled 设置 为 false, 可 以 禁用 此 
模块 。 


8.3.5 索引 模块 


所 有 与 索引 相关 的 设置 (适用 于 所 有 索引 ) 都 由 该 模块 来 管理 。 这 里 有 很 多 设置 可 以 控 
制 异常 .缓存 .索引 缓冲 区 、 请 求 缓存 等 。 


8.3.6 网 络 模块 


该 模块 负责 网 络 相关 的 设置 ,并 且 帮 助 我 们 建立 生产 级 别 的 节点 和 集群 。 默 认 情 况 下 ， 
所 有 设置 都 适用 于 本 地 主机 (127. 0.0. 1)。 在 生产 环境 中 ,应 该 绑 定 适当 的 主机 名 和 端口 ， 
许多 相关 的 网 络 设置 由 该 模块 控制 。 
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8.3.7 节点 客户 端 


节点 可 以 分 为 几 种 类 型 ,分 别 如 下 : 
。 主 节点 master node: 这 种 节点 可 以 控制 集群 ,设置 node. master 属性 为 true, 来 赋予 
主 节点 资格 。 集 群 启动 后 ,将 在 这 个 类 型 的 节点 中 选择 主 节 点 : 


node .master : true 


。 数据 节点 Data node: 该 节点 可 以 执行 CRUD ,搜索 和 聚合 。 要 使 当前 节点 仅 为 数据 
节点 ,只 需 将 node. data 属性 设置 为 true: 


node .data : true 


。 Ingest 节点 : 这 是 在 5. x 版 本 之 后 加 入 的 一 种 新 的 节点 类 型 。 所 有 节 
点 都 能 作为 Ingest 节点 ,如 果 不 希 望 某 些 节 点 成 为 Ingest 节点 ,就 需要 禁用 它 em 
在 对 文档 执行 任何 操作 之 前 ,这 些 节 点 都 会 进行 预 处 理 。 稍 后 将 在 本 章 详细 讨论 
些 节点 。 

。 Tribe 节点 : 节点 可 以 连接 到 多 个 集群 ,并 在 集群 中 执行 必要 的 操作 。 这 些 节 
人 节点 。 

总 之 ,对 于 每 种 类 型 的 节点 ,请 参阅 下 表 中 的 elasticsearch. yml 设置 。 


node. master: node. master: node. master: node. master: 
true false false false 
node. data: false node. data: true node. data: false node. data: false 


node. ingest: node. ingest: node. ingest: node. ingest: 





false false true false 
如 果 使 用 这 些 设置 ,该 节点 将 只 具备 四 种 功能 中 的 一 种 。 
8.3.8 插件 模块 
插件 扩展 了 Elasticsearch 并 提供 了 更 多 功能 。 在 本 章 后 面 的 部 分 ,将 对 Elasticsearch 


插件 进行 介绍 。 
8.3.9 脚本 


这 个 模块 允许 使 用 API 的 时 候 执行 带 有 脚本 的 操作 .例如 脚本 可 以 用 来 更 新 索引 中 的 
文档 。Elasticsearch 支持 多 种 脚本 语言 .其 中 Groovy 和 Painless 是 最 流行 的 两 种 ,这 些 插 
件 都 是 内 置 的 。 使 用 脚本 并 不 总 是 安全 的 ,因此 Elasticsearch 有 一 套 启 用 和 禁用 脚本 的 设 
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置 。 这 些 设置 都 是 细 粒 度 的 ,它们 分 为 两 种 形式 : 
第 一 种 形式 如 下 : 
script.engine.{lang}. {source}. {context}: truelfalse 
第 二 种 形式 如 下 : 
script.engine.{lang}. {inlinelfilelstored}: truelfalse 
例如 ,要 启用 inline Groovy 脚本 ,可 使 用 如 下 方法 : 
script.engine.groovy.inline: true 


要 启用 、 禁 用 所 有 语言 的 脚本 ,可 以 使 用 下 面 示例 中 的 属性 ,这 里 设置 允许 使 用 inline 
脚本 : 


script.inline: true 


建议 使 用 细 粒 度 的 底层 (而 不 是 这 种 高 层次 ) 的 设置 ,因为 这 样 可 以 让 任何 人 在 你 的 
Elasticsearch 集群 上 执行 任何 脚本 。 
建议 在 Groovy 的 基础 上 使 用 Painless ,这样 可 以 增加 安全 性 和 性 能 优势 。 


8.3.10 快照 /恢复 模块 


这 个 模块 可 向 Elasticsearch 中 (以 及 从 Elasticsearch 向 外 ) 备 份 和 恢复 数据 。 该 操作 
可 以 在 整个 集群 中 执行 ,也 可 在 单个 索引 中 执行 。 在 创建 快照 之 前 ,必须 搭建 一 个 存储 库 ， 
这 里 也 有 官方 提供 的 用 于 AWS Cloud、HDFS、Azure cloud 存储 库 的 插件 。 


8.3.11 线程 池 


高 效 的 线程 管理 和 内 存 管理 是 搜索 引擎 的 一 个 关键 因素 。 每 个 Elasticsearch 节点 都 
有 一 些 用 于 不 同 用 途 的 线程 池 , 这 些 用 途 包括 通用 目的 .索引 、 搜 索 . 获 取 数 据 .bulk、 
percolate 快照.warmer、 刷 新 ,以 及 监听 器 操作 。 


8.3.12 Transport 模块 


我 们 已 经 了 解 到 Elasticsearch 节点 有 HTTP 层 和 Transport 层 。HTTP 层 服务 于 
REST 请 求 , Transport 层 用 于 集群 和 节点 之 间 的 内 部 通信 。 传 输 模块 具有 TCP 的 实现 ,其 
中 有 许多 可 用 的 端口 主机、 超时 等 设置 。 这 里 还 有 一 个 专用 的 日 志 记录 程序 ,用 于 记录 所 
有 传人 和 传 出 请 求 的 日 志 。 这 个 日 志 记录 程序 称 为 Transport Tracer。 
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8.3.13 Tribe 节点 模块 


Tribe 节点 是 一 个 特殊 的 客户 端 节点 , 它 可 以 跨 多 个 集群 进行 通信 。 在 其 配置 文件 中 ， 
Tribe 节点 应 该 拥有 一 个 所 有 已 加 入 集群 的 列表 。 同 时 , Tribe 节点 应 该 能 够 连接 列表 所 记 
载 集群 中 的 所 有 节点 ,并 且 能 够 在 其 上 执行 读 写 操作 。 


8.4 Ingest 节点 


正如 在 前 面 章 节 中 所 学 到 的 ,在 为 文档 创建 索引 之 前 ,Ingest 节点 能 对 其 进行 预 处 
理 。 在 执行 批量 请 求 或 索引 操作 之 前 ,Ingest 节点 会 监听 请 求 , 并 对 文档 进行 必要 的 处 
理 。 这 种 处 理 器 的 一 个 示例 是 日 期 处 理 器 , 它 用 于 解析 字段 中 的 日 期 。 另 一 个 例子 是 转 
换 处 理 器 , 它 将 字段 值 转换 为 目标 类 型 ,例如 将 字符 串 类 型 转换 为 整 型 。 大 量 的 此 类 处 
理 器 均 可 访问 该 网 址 获取 : https://www. elastic. co/guide/en/elasticsearch/reference/ 
5.1/ingest-processors. html。 

当 一 个 体 量 十 分 巨大 的 处 理 操作 执行 时 ,如 果 不 硕 望 数据 节点 或 主 节 点 参与 这 些 处 理 ， 
Ingest 节点 是 很 有 帮助 的 。 专 门 用 来 执行 处 理 操作 的 Ingest 节点 可 以 显著 降低 负荷 。 最 好 
将 数据 节点 和 主 节点 的 node. ingest 属性 设置 为 false。 

为 了 了 解 Ingest 节点 如 何 与 数据 管道 协同 工作 ,可 以 按照 以 下 步骤 来 执行 。 以 第 2 章 
中 的 library 索引 和 增加 的 类 型 movies 为 例子 : 

(1) 决定 要 处 理 什 么 : 在 数据 集 当中 ,有 20 多 个 字段 ,现在 又 在 其 中 添加 了 7 个 类 型 
(genre) 字 段 。 这 些 新 加 入 的 字段 是 纪录 片 documentary ,动作 片 action、 戏 剧 drama、 短 剧 
short 动画 animation ,浪漫 剧 romance、 喜 剧 comedy。 所 有 这 些 字段 都 采取 二 进 制 的 取 值 ， 
其 中 只 有 一 个 值 代表 true。 然 而 ,这 可 能 被 合并 成 一 个 名 为 genre 的 单独 的 字段 ,以 便于 更 
好 地 理解 ,分 析 和 可 视 化 。 

如 果 已 经 有 library 索引 的 movies 类 型 ,请 删除 此 类 型 ,以 便 在 开始 操作 之 前 有 一 个 全 
新 的 索引 。 可 在 library 索引 上 调用 _delete_by_query API 来 删除 movies 类 型 : 


POST library/_delete by query{ "query":{ "match": { "_tyPe":"movies" } }} 


(2) 准备 处 理 器 : 可 以 用 Painless 脚本 检查 是 否 有 任何 字段 的 值 设 置 为 1 ,然后 添加 
一 个 新 的 字段 genre, 并 将 值 为 1 的 字段 名 设置 为 其 值 。 下 面 的 脚本 可 以 做 到 相同 的 
操作 : 
{ 
"eeript": { 


"inline": " if(ctx.romance ==1){ ctx.genre ="romance"} 
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else if(ctx.drama ==1){ ctx.genre ="drama"} else 


if(ctx.action ==1){ 





ctx.genre ="action"} elseif (ctx.documentary ==1){ ctx.genre = 
"documentary"} 

else if(ctx.comedy ==1){ ctx.genre ="comedy"} else 
if(ctx.animation ==1){ 

ctx.genre ="animation"} elseif(ctx.short ==1){ ctx.genre = 
“short"} ™, 

"lang": "painless" 
} 
} 


执行 这 个 脚本 ,将 在 文档 中 添加 一 个 名 为 genre 的 新 字段 。 

(3) 模拟 管道 : 模拟 管道 是 检查 问题 最 好 的 方式 。 要 对 管道 进行 模拟 ,可 以 使 用 
_ingest/pipeline/_simulate 参 数 。 管 道 模拟 器 需要 两 个 字段 一 一 pipeline( 包 含 要 测试 的 管 
道 ) 和 docs( 要 进行 测试 的 示例 文档 )。 调 用 的 模拟 功能 及 其 管道 的 相关 命令 如 下 所 示 : 


POST ingest/pipeline/_simulate 


{ 


}, 


"pipeline": { 

"description": "Process Genre Data"， 

"processors": [ 

{"script": { 

"inline": "if(ctx.romance ==1){ ctx.genre ="romance"} 
else if(ctx.drama ==1){ ctx.genre ="drama"} 
else if(ctx.action ==1){ ctx.genre ="action"} 
else if(ctx.documentary ==1){ ctx.genre ="documentary"} 
else if(ctx.comedy ==1){ ctx.genre ="comedy"} 
else if (ctx.animation ==1){ ctx.genre ="animation"} 
else if (ctx.short ==1){ ctx.genre ="short"}", 

"lang": "painless" 


} 


] 
"docs": [ 
{ 
"_index": "library", 
"_type": "movies", 


"id": 





"_source": { 


"romance": 0, 
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} 


"r2votes": 4, 
"year": 2001, 
"rating": 8, 

"r8votes": 14, 


"title": "Lord of the Rings: The Fellowship of the Ring "， 





"r5votes": 4, 
"drama": 0, 
"@version": "1", 
"atioa™sS. 
"r6votes": 4, 
"documentary": 0, 
"budget": 93000000, 
"r9votes": 14, 
"comedy": 0, 
"length": "208", 
"r3votes": 4, 
"rlO0votes": 45, 





"tags": [], 
"animation": 0, 
"rdAvotes": 4, 
"rTvotes": 4, 
"short": 0, 

: 157608, 
"rlvotes": 4, 


"mpaaRating": "PG-13" 





"votes 


如 果 看 到 最 后 以 此 调用 的 输出 ,就 应 该 能 够 看 到 一 个 添加 到 文档 的 新 字段 genre。 

(4) 插入 管道 ; 管道 包含 两 个 字段 : description 和 processors, 这 里 可 以 定义 多 个 处 理 
器 。 可 以 使 用 _ingest/pipeline 参数 来 插入 管道 ,并 为 其 设置 一 个 名 字 , 这 里 将 其 名 字 设 置 
为 process_genre_data。 调 用 API 来 插入 管道 的 命令 如 下 所 示 : 


PUT ingest/pipeline/process-genre-data 


{ 


"description": "Process Genre Data", 
"processors": [ ("Soript™s "inline": 
"if(ctx.romance ==1){ ctx.genre= "romance"} 


else if(ctx.drama ==1){ ctx.genre ="drama"} 
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else if(ctx.action ==1){ ctx.genre ="action"} 
else if(ctx.documentary ==1){ ctx.genre ="documentary"} 
else if(ctx.comedy ==1){ ctx.genre ="comedy"} 
else if(ctx.animation ==1){ ctx.genre ="animation"} 
else if(ctx.short ==1){ ctx.genre ="short"}", 
"lang": "painless" 
} 


} 


如 果 运 行 该 命令 ,控制 台 将 输出 一 个 肯定 的 应 答 。 

(5) 使 用 管道 : 管道 设置 好 之 后 , 即 可 使 用 它 。 在 第 2 章 中 ,用 Logstash. movies. conf 
配置 文件 为 电影 数据 创建 索引 。 除 了 一 处 Elasticsearch 输出 配置 上 的 修改 之 外 ,其 余部 分 
将 保持 相同 的 配置 。 需 要 设置 管道 的 字段 ,以便 Elasticsearch 能 够 使 用 该 管道 。 更 新 后 的 
输出 配置 如 下 : 


output { 
elasticsearch { 
index =>"library" 
document type =>"movies" 
hosts =>"localhost" 


pipeline =>"process-genre-data" 


} 
配置 更 新 后 ,就 可 执行 索引 过 程 。 假 设 ( 仅 ) 用 Ingest 节点 建立 了 一 个 集群 ,下 面 运行 


Logstash 


./bin/Logstash -f conf/Logstash.movies .conf 


(6) 验证 Ingest 过 程 : 通过 查询 电影 数据 ,验证 管道 工作 状态 是 否 良 好 ,应 该 能 够 看 到 
一 个 新 添加 的 字段 genre。 要 在 Kibana 控制 台 测试 这 个 过 程 ,可 以 运行 下 面 的 命令 : 


GET library/movies/_ search{ "query": { "match all": { } -3 


在 命中 的 搜索 结果 中 ,你 应 该 看 到 每 个 电影 的 文档 都 增加 了 genre 字段 。 

这 是 一 个 简单 的 关于 管道 的 例子 ,其 中 使 用 了 Ingest 节点 和 Logstash。Ingest 节点 是 
Elastic Stack 的 一 个 新 成 员 , 实 现 管道 定义 工作 ,可 以 在 不 使 用 Logstash 的 情况 下 直接 使 
用 。Ingest 节点 在 功能 ,处理 器 等 方面 还 在 发 展演 进 , 目 前 已 经 比 Logstash 表现 出 更 高 的 
性 能 和 处 理 文件 的 吞吐 量 。 
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在 Logstash 中 使 用 的 带 有 管道 的 输出 配置 方式 ,使 用 带 有 管道 的 Beats 组 件 同样 可 以 
做 到 。 在 这 种 情况 下 ,如果 使 用 Ingest 节点 可 以 实现 ,就 可 以 省 去 对 Logstash 的 使 用 。 以 
下 是 Filebeat 组 件 使 用 管道 的 示例 : 

output .elasticsearch: 


hosts: ["http://localhost:9200"] 


pipeline: process genre data 


在 Elasticsearch 的 输出 配置 中 ,只 需要 指定 管道 的 名 称 即 可 。 
8.5 ”Elasticsearch 客户 端 


在 本 章 前 面 的 部 分 ,我 们 了 解 了 Elasticsearch 节点 支持 Transport 和 HTTP 协议 。 利 
用 这 种 灵活 性 ,Elasticsearch 节点 可 以 接受 客户 端 (client) 的 管理 ,这 种 客户 端 是 由 其 他 编 
程 语言 编写 的 。 有 很 多 客户 端 可 以 在 集群 和 节点 上 执行 操作 。 这 些 客户 端 可 以 连接 到 节点 
或 群集 上 ,管理 索引 ,对 文档 操作 ,以 及 执行 搜索 。 


8.5.1 支持 的 客户 端 


某 些 客户 端 由 Elasticsearch 官方 支持 。 这 些 客户 端 基本 上 都 是 API, 可 以 用 熟悉 的 语 
言 编写 应 用 程序 来 调用 它们 。 例 如 ,如 果 正 在 开发 JavaWeb 应 用 程序 ,要 集成 到 
Elasticsearch, 同 时 想 提 供 管 理 员 面板 来 管理 索引 ,就 可 以 调用 Elasticsearch 支持 的 
JavaAPI 连接 到 群集 和 节点 ,完成 必要 的 操作 。 以 下 是 所 有 Elasticsearch 支持 的 客户 端 
列表 : 

。 Java API; 

。 JavaScript API; 

。 Groovy API; 

。 .NET API; 

。 PHPAPI; 

。 Perl API; 
Python API; 
。 Ruby API。 


8.5.2 社区 提供 的 客户 端 


开源 软件 之 所 以 强大 .是 因为 它 来 源 于 社区 。Elasticsearch 也 是 这 样 ,社区 的 贡献 在 其 
中 起 到 了 重要 的 作用 。Elasticsearch 官方 仅 正式 支持 少数 客户 端 ,但 社区 贡献 了 30 多 个 。 
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这 些 客户 包括 其 他 语言 例如 Go、Scala、R、Smalltalk 等 。 虽然 不 是 所 有 的 客户 端 都 支持 全 
部 的 操作 ,但 至 少 可 以 支持 最 常见 的 以 及 有 用 的 操作 。 
完整 的 客户 端 列 表 可 访问 以 下 网 址 来 获取 : https://www. elastic. co/guide/en/ 


elasticsearch/client/community/current/index. html, 


8.6 Java API 


Java 客户 端 使 用 传输 层 来 执行 操作 , 它 可 以 支持 各 种 操作 。 借 助 它 可 以 搜索 ,为 文档 
创建 索引 ,删除 或 者 获取 包括 集群 管理 任务 在 内 的 文档 ;也 可 以 批量 执行 操作 。 

要 在 应 用 程序 中 使 用 JavaAPI, 需 要 使 用 JAR 文件 作为 依赖 。 对 于 Maven 项 目 , 可 以 
用 pom. xml 添加 如 下 所 示 的 依赖 : 


<dependency> 
<groupId>org.elasticsearch< /groupId> 
<artifactId>elasticsearch</artifactId> 
<version>$ {elasticsearch.version}</version> 


</dependency> 


为 了 将 JAR 文件 直接 引入 到 这 个 项 目 中 ,可 以 从 远 端 存储 库 https://repo. maven. 
apache. org/maven2/org/elasticsearch/elasticsearch 中 下 载 ,可 以 选择 适合 的 版 本 。 

需要 注意 的 是 ,客户 端 版 本 应 该 与 当前 使 用 的 Elasticsearch 版 本 相同 。 例 如 ,如 果 使 
用 Elasticsearch-5. 1.1, 那 么 也 应 使 用 5.1.1 版 本 的 相应 的 JAR 文件 。 对 于 pom. xml 文 
件 , 需 要 将 变量 $ {elasticsearch. version) 的 值 设置 为 与 正在 使 用 Elasticsearch 的 版 本 相 
对 应 。 


8.6.1 连接 到 集群 
要 连接 到 集群 ,可 以 利用 TransportClient 来 创建 客户 端 ,如 以 下 代码 所 示 : 


Clientclient=TransportClient.builder().build() .addTransportAddress!( 
new InetSocketTransportAddress (InetAddress.getByName ("localhost"), 9300)); 


节点 启动 后 ,注意 Elasticsearch 输出 的 日 志 , 将 打印 出 下 面 的 代码 : 


[2016-05-02 16:39:51,832] [INFO ] [transport] 
[Clive]publish address{127.0.0.1:9300}, 
bound addresses {127.0.0.1:9300}, 
{[::1]:9300}, {[fe80::1]:9300} 
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[2016-05-02 16:39:51,832] [INFO ] [http] [Clive] publish address 

{127.0.0.1:9200}, bound addresses {127.0.0.1:9200}, {[::1] :9200}, 

{[fe80::1] :9200} 

我 们 已 经 知道 , Elasticsearch 支持 传输 层 和 HTTP 层 。Elasticsearch 需要 不 同 的 端口 
来 连接 这 些 层 一 一 默认 情况 下 端口 9300 用 于 传输 (Transport) 层 , 端口 9200 用 于 
HTTP 层 。 

由 于 Java 客户 端 运行 在 传输 层 , 所 以 对 9300 端口 进行 连接 。 一 旦 连接 客户 端 ,就 可 以 
完成 所 需 的 操作 。 

一 旦 所 有 操作 都 完成 ,就 应 该 调用 close() 方 法 来 终止 连接 : 


client.close(); 


8.6.2 管理 任务 


为 了 使 用 Java API 执行 管理 任务 (admin task), 需 要 使 用 AdminClient, 可 以 调用 
client. admin() 方 法 来 获取 它 : 


AdminClient admin =client.admin (); 


这 个 调用 返回 Admin 静态 类 的 一 个 对 象 , 它 实现 了 AdminClient 接口 。 这 个 对 象 可 对 
索引 和 集群 进行 操作 。 


8.6.2.1 管理 索引 


admin 对 象 使 用 自身 提供 的 admin. indices() 方 法 提供 IndicesAdminClient 类 的 实例 ， 
可 创建 索引 ,刷新 .获取 设置 ,以 及 更 新 设置 


IndicesAdminClient indicesAdmin =admin.indices () 7 


1. 创建 索引 
以 第 2 章 中 使 用 的 电影 数据 集 为 例 。 要 创建 带 有 默认 设置 的 索引 ,可 以 编写 以 下 代码 
实现 : 


indicesAdmin.prepareCreate ("movies") .get (); 


让 我 们 来 了 解 一 下 刚刚 发 生 了 什么 一 一 首先 调用 prepareCreate() ,并 传人 索引 名 称 
movies 来 准备 索引 ;然后 调用 get() 方 法 来 执行 创建 操作 。 调 用 prepareCreate() 方 法 将 返 
回 CreateIndexRequestBuilder 类 的 对 象 ,这 是 一 个 用 于 创建 索引 的 builder, 要 创建 索引 的 
时 候 可 以 调用 它 。 
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下 面 是 一 个 更 详尽 的 调用 代码 : 


CreateIndexRequestBuilder indexBuilder = 
indicesAdmin.prepareCreate ("movies"); 


CreateIndexResponse createIndexResponse =indexBuilder.get (); 
这 段 程序 将 在 集群 上 以 默认 设置 创建 一 个 索引 ,分 片 数 为 5, 每 个 分 片 的 副本 数 为 1。 
要 在 创建 索引 时 候 指定 不 同 的 设置 ,可 以 调用 Settings 类 中 的 builder( ) 方 法 : 
indexRequestBuilder.setSettings (Settings.builder() 
.Put ("index.number of shards", 2) 
.put ("index.number of replicas", 2)); 
可 以 继续 添加 重 载 的 所 有 设置 。setSettings() 方 法 有 多 种 形式 ,可 以 接收 不 同类 型 的 
输入 (Settings. Builder 就 是 其 中 一 个 )。 也 可 以 向 这 个 方法 中 传人 一 个 JSON 字符 串 。 
2. 获得 索引 设置 
在 GetSettingsResponse 类 的 实例 中 ,可 以 调用 prepareGetSettings() 方 法 准备 设置 信 
息 ,接着 调用 get() 来 获取 索引 设置 ; 


GetSettingsResponse settingsResponse = 


indicesAdmin.prepareGetSettings ("movies") .get (); 


由 于 preparegetsettings() 方 法 可 以 接收 任意 数量 的 参数 (varargs) ,因此 也 可 以 一 次 获 
取 多 个 索引 的 设置 ,这 个 方法 的 声明 如 下 所 示 : 


GetSettingsRequestBuilder prepareGetSettings (String... indices); 


全 上 述 代码 中 的 三 个 点 表示 该 位 置 可 以 接收 任意 数量 的 参数 ,这 也 被 称 为 varargs 


(可 变 参数 ) 。 在 参数 数量 未 知 的 情况 下 ,这 种 定义 方式 是 很 有 帮助 的 。 





可 以 调用 settingsResponse. getIndexToSettings() 方 法 来 迭代 这 个 设置 : 


for (ObjectObjectCursor<String, Settings>ooCursor : 
settingsResponse.getIndexToSettings () ) { 

String index =ooCursor.key; 

Settings settings =ooCursor.value; 

Integer Shards =settings.getAsInt ("index.number of shards", null); 
} 


使 用 cursor 对 象 ,可 以 得 到 索引 和 设置 。 稍 后 . 即 可 从 Settings 的 对 象 中 获取 值 。 可 
以 获取 的 其 他 Settings 对 象 的 值 ,如 下 所 示 : 
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index.creation date 
index.number of replicas 
index.number of shards 
index.uuid 


index.version.created 


3. 更 新 索引 设置 

要 更 新 设置 ,可 调用 prepareUpdateSettings() 方 法 : 

indicesAdmin.prepareUpdateSettings ("movies") .setSettings (Settings.builder() . 

put ("index.number of replicas", 4)) .get (); 

在 上 述 语句 中 调用 了 setSettings() 方 法 .并 指定 index. number_of_replicas 关键 词 更 新 
设置 ,然后 调用 get() 方 法 执行 操作 。 


4. 刷新 索引 
同样 ,可 以 调用 prepareRefresh( ) 方 法 刷新 一 个 或 多 个 索引 ， 


indicesAdmin.prepareRefresh ("movies") .get (); 
如 果 不 指定 任何 索引 名 称 ,这 个 调用 将 刷新 全 部 索引 。 
8.6.2.2 管理 集群 


IndicesAdminClient 提供 了 索引 相关 的 任务 ,与 之 相似 的 是 , Java API 提供 了 
ClusterAdminClient 管理 集群 相关 的 任务 : 


ClusterAdminClient clusterAdmin =admin.cluster (); 


可 以 初始 化 ClusterAdminClient 的 对 象 来 执行 集群 相关 的 操作 ,例如 管理 任务 、 快 照 ， 
了 解 集群 和 节点 的 健康 状况 ,更 新 设置 以 及 更 多 的 工作 。 下 面 介绍 一 些 这 样 的 操作 ,它们 都 
可 以 通过 调用 Java API 来 执行 。 


1. 获取 集群 任务 信息 

调用 ClusterAdmin 类 中 的 方法 准备 一 个 包含 所 有 任务 的 列表 ,返回 ListTasksRequest- 
Builder 的 对 象 ,可 以 使 用 它 获取 任务 的 响应 信息 。 该 响应 包含 所 有 TaskInfo 对 象 的 列表 ， 
可 以 对 它 进行 迭代 来 获取 任务 信息 。 下 面 的 代码 是 对 所 讨论 的 这 部 分 内 容 的 实现 : 


ListTasksRequestBuilder taskBuilder =clusterAdmin.prepareListTasks(); 
ListTasksResponse taskResponse =taskBuilder.get (); 
List<TaskInfo>tasks =taskResponse.getTasks(); 

for (TaskInfo taskInfo : tasks) { 
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// get task information taskInfo.getId(),taskInfo.getDescription() 
} 


一 旦 获取 响应 信息 ,就 可 以 得 到 所 有 任务 的 列表 ,并 且 通 过 迭代 获取 任务 相关 的 信息 。 


2. 获取 集群 健康 状况 
通过 ClusterIndexHealth 类 的 对 象 可 获取 每 个 索引 在 集群 中 的 健康 状况 信息 : 


ClusterHealthRequestBuilder healthBuilder =clusterAdmin.prepareHealth (); 
ClusterHealthResponse healthResponse =healthBuilder.get (); 
for (ClusterIndexHealth health : healthResponse.getIndices().values()) { 
String index =health.getIindex (); 
int shardsCount =health.getNumberOfShards (); 
int replicasCount =health.getNumberOfReplicas (); 
ClusterHealthStatus status =health.getStatus (); 
} 


得 到 了 health 对 象 之 后 ,也 可 以 获得 其 他 信息 ,例如 分 片 数 量 、 副 本 和 索引 状态 等 。 


health 对 象 提供 索引 相关 的 信息 时 ,healthResponse 对 象 可 以 提供 集群 级 信息 ,例如 节点 数 
量 ,数据 节点 数量 群集 名 称 以 及 活跃 的 分 片 等 。 


8.6.3 索引 级 任务 


Java API 允许 执行 偏 底层 的 任务 ,可 以 调用 文档 .搜索 .计数 以 及 其 他 可 用 的 API 来 实 


现 。Java API 可 以 同时 对 单个 和 多 个 文档 执行 操作 ,还 可 以 使 用 聚合 或 查询 DSL 来 构建 查 
询 ,然后 调用 搜索 API 执行 搜索 。 


8.6.3.1 管理 文档 
索引 API 可 以 向 索引 添加 文档 、 更 新 文档 和 删除 文档 。 


1. 索引 文档 
我 们 已 经 准备 了 一 个 客户 端 ,下 面 将 直接 使 用 客户 端 来 执行 操作 。 
首先 ,编写 一 个 创建 索引 的 请 求 ,其 中 包括 一 个 特定 的 索引 名 称 .一 个 类 型 名 称 ,以 及 指 


定 的 一 个 ID 号 (可 选 )。 这 样 , 如 果 想 将 一 个 文档 添加 到 library 索引 中 ,类 型 为 book,id 为 
121; 就 可 以 编写 以 下 代码 来 实现 : 


IndexRequestBuilder indexRequestBuilder =client.prepareIndex ("library", 
“pook", "121"); 


IndexResponse response =indexRequestBuilder.setSource (<document>) .get (); 
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一 旦 构建 了 索引 请 求 ,就 可 以 调用 setSource() 方 法 ,之 后 调用 get() 方 法 执行 操作 。 方 
法 setSource() 有 许多 可 能 的 调用 方式 ,如 下 所 示 : 


setSource (byte[] source) 
setSource (byte[] source，int offset, int length) 


setSource (BytesReference source) 
这 个 调用 以 字 节 或 BytesReference 的 形式 将 文档 存 人 索引 : 


setSource (Map<String,?>source) 


setSource (Map<String,?>source, XContentType contentType) 


这 种 形式 以 Map 的 形式 存储 要 用 到 的 键 值 对 (key-value-pair) ,其 中 键 (key) 为 字符 串 
类 型 , 值 (value) 为 对 象 类 型 。 这 种 形式 的 一 个 例子 如 下 所 示 : 


Map<String, Object>document =new HashMap<String, Object> (); 
document .put ("author", "Ravi"); 
document .put ("title","Test-Driven JavaScript Development"); 


document .put ("pages",240); 


创建 一 个 Map 对 象 ,并 将 作者 .标题 和 页 数 的 信息 存 和 人 其中。 

如 果 在 准备 文档 时 使 用 JSON 字符 串 格 式 的 数据 ,就 可 以 直接 利用 这 样 的 字符 串 来 索 
引文 档 : 

setSource (String source) 

例如 : 


String book ="{"+""author":"Ravi","+ 
""title":"Test-Driven JavaScript Development","+ 
"wpages":"240""+ 
“py" 
IndexRequestBuilder indexRequestBuilder =client.prepareIndex ("library" 
"book"); 


indexRequestBuilder.setSource (book) .get (); 


上 述 示 例 中 没有 提供 ID。 在 这 种 情况 下 . 它 将 为 文档 自动 生成 一 个 ID。 
也 可 以 用 XContentBuilder 创建 索引 文档 的 数据 源 : 


setSource (XContentBuilder sourceBuilder) 


setsource() 方 法 还 有 一 些 其 他 的 形式 。 它 以 键 值 对 作为 单独 的 参数 ,每 次 调用 该 方法 
时 ,最 多 可 以 传人 四 对 键 值 对 : 
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setSource (String field1，Object valuel) 

setSource (String field1，Object valuel, String field2, Object value2) 
setSource (String fieldl1, Object valuel，String field2, Object value2, 
String field3, Object value3) 

setSource (String fieldl1, Object valuel, String field2, Object value2, 
String field3, Object value3, String field4, Object value4) 


无 论 一 个 文档 是 否 被 创建 ,调用 get() 均 会 返回 一 个 响应 ,从 这 个 响应 中 可 以 获取 索 


引 、 类 型 ID ,版 本 和 一 个 表明 文档 是 否 已 被 创建 的 布尔 值 : 


response.getIndex() // index name 

response.getType() // type name 

response.getVersion() // version number 

response.getId() // id of the indexed document 
response.isCreated() // true if the document was created 
2. 获取 文档 


调用 prepareGet() 方 法 可 获取 文档 : 
GetResponse getResponse =Cclient.prepareGet ("library", "book", "121") .get () 7 
要 获取 文档 ,需要 指定 索引 名 称 、 类 型 名 称 和 ID 号 。 


3. 删除 文档 
调用 prepareDelete()0 方 法 可 删除 文档 : 





DeleteResponse deleteResponse =client .prepareDelete("library", "book", 
"151") .get (); 


要 删除 文档 ,需要 指定 索引 名 称 、 类 型 名 称 和 ID 号 。 


4. 更 新 文档 
要 更 新 文档 ,可 以 初始 化 UpdateRequest 的 对 象 ,并 指定 索引 的 名 称 、 类 型 .文档 ID ,以 


及 一 个 包含 所 要 更 新 字段 的 文档 对 象 : 


UpdateRequest updateRequest =newUpdateRequest () 7 
updateRequest.index("1ibrary") 7 
updateRequest.type ("book"); 
updateRequest.id("151"); 


updateRequest.doc (XContentFactory.jsonBuilder () 


四 译 者 注 : 原文 中 这 个 方法 名 为 prepareGet() ,笔者 认为 这 里 存在 错误 ,将 其 改 为 prepareDelete() 。 
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.startObject () 
.field("pages", "250") 
.endOobject () ) ; 
一 旦 准备 好 请 求 对 象 , 即 可 调用 update() 方 法 ,之 后 调用 get( ) 方 法 来 执行 最 终 的 
操作 : 


client.update (updateRequest) .get () 7 
另 一 种 方法 是 调用 prepareUpdate() 方 法 ,然后 调用 setScript() 或 setDoc() 方 法 : 


updateRequest =new UpdateRequest ("library", "book", "151") 
.Script (new Script ("ctx. source.pages ="250"")); 
client.update (updateRequest) .get (); 
client .prepareUpdate ("library", "book", "151") 
.SetDoc (XContentFactory.jsonBuilder () 
.startObject () .field("pages"，"250") .endObject () ) .get (); 


这 里 也 支持 upsert。 如 果 要 更 新 的 文档 不 存在 ,程序 将 创建 一 个 新 的 文档 。 如 果 文 档 
已 预先 创建 好 ,程序 将 对 它 进行 更 新 。 调 用 update( ) 方 法 之 前 需要 调用 upsert( ) 方 法 来 使 
用 upsert: 


updateRequest.doc (XContentFactory.jsonBuilder () .startOobject ().field("pages", 
"250") .endObject ()) .upsert () 
client.update (updateRequest) .get (); 


8.6.3.2 查询 DSL 和 搜索 API 


这 个 API 可 以 帮助 我 们 使 用 QueryBuilder factory 类 的 查询 DSL。 使 用 这 个 API 可 创 
建 简单 和 复杂 的 查询 ,然后 使 用 搜索 API 在 索引 中 执行 搜索 。 
例如 ,要 执行 matchAll 查询 ,可 以 编写 如 下 代码 来 实现 : 


QueryBuilder queryBuilder =QueryBuilders.matchAllQuery (); 

用 QueryBuilder factory 类 建立 matchAllQuery 并 将 其 传人 QueryBuilder 对 象 。 与 之 
相似 ,也 可 以 执行 其 他 类 别 的 查询 : 

QueryBuilders.matchQuery (String name, Object text) 


这 个 方法 执行 后 将 返回 match 查询 ,其 中 带 有 两 个 参数 一 一 字段 名 称 和 要 匹配 的 
文本 : 


QueryBuilders.multiMatchQuery (Object text, String... fieldNames) 
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multiMatchQuery() 的 参数 中 ,第 一 个 参数 指定 要 匹配 的 文本 ;第 二 个 参数 是 可 变 参 数 
varargs ,指定 查询 时 要 匹配 内 容 的 所 有 字段 。 

查询 DSL 中 支持 的 查询 类 型 非常 多 ,其 中 包括 连接 查询 、 词 项 级 检索 .全 文 索引 、 地 理 
信息 检索 .跨度 查询 等 。 完 整 的 查询 列表 详 见 https://www. elastic. co/guide/en/ 
elasticsearch/client/java-api/5. 1/java-query-dsl. html 。 

创建 查询 之 后 , 即 可 使 用 搜索 API 来 执行 搜索 操作 。 可 在 存 有 所 有 电影 数据 的 library 
索引 中 执行 搜索 : 


SearchResponse response =client .prepareSearch ("library") 

.SetTypes ("movies") .SetSearchType (SearchType.DFS QUERY THEN_ FETCH) 
.SetQuery (QueryBuilders.matchQuery ("title", "titanic")) 

.SetFrom(0) .setSize(60) .setExplain (true) 

.execute() 


.actionGet (); 


上 面 的 程序 中 调用 了 prepareSearch() 方 法 并 提供 了 索引 名 称 library, 然后 调用 
setTypes() 方 法 并 指定 movies 类 型 , 紧 接着 调用 setSearchType() 并 指定 搜索 的 执行 方式 。 
根据 官方 文档 的 描述 ,DFS_QUERY_THEN_FETCH 与 QUERY_THEN_FETCH 这 两 个 
名 称 除 了 开头 部 分 DFS 这 一 小 段 不 同 之 外 ,其 余部 分 都 是 相同 的 。 带 有 DFS 的 方式 在 执 
行 和 计算 分 布 式 文件 系统 中 的 词 频 时 ,可 以 得 到 更 准确 的 评分 。 

使 用 QUERY_THEN_FETCH 时 ,程序 将 对 所 有 分 片 执行 查询 ,但 文件 的 内 容 不 
会 立刻 被 返回 ,只 有 关于 结果 的 一 部 分 必要 的 (最 小 的 ) 的 信息 会 被 返回 。 程 序 根据 查 
询 来 对 结果 进行 整理 和 排序 ,并 获取 到 文档 的 内 容 。 获 取 文 档 内 容 时 ,只 涉及 与 之 相 
关 的 分 片 。 

设置 搜索 类 别 之 后 ,又 设置 了 一 个 查询 。 这 个 查询 将 使 用 QueryBuilders 创建 的 查询 
对 象 。 然 后 指定 从 第 几 条 查询 至 第 几 条 的 数量 信息 ,以 及 是 否 想 要 返回 关于 文档 如 何 被 评 
分 的 解释 信息 。 最 后 ,对 execute() 和 actionGet() 方 法 的 调用 执行 查询 ,并 得 到 响应 。 这 个 
响应 信息 包含 了 时 间 信 息 、 分 片 信息 以 及 查询 中 命中 的 文档 信息 。 


8.6.3.3 聚合 


Java API 提供 了 一 种 全 新 的 方式 ,利用 AggregationBuilders 实用 程序 实现 聚合 。 一 个 
典型 的 搜索 操作 如 下 所 示 : 


SearchResponse searchResponse =client .prepareSearch("stones") 
.addAggregation (aggregation) 


-execute() .actionGet (); 
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在 其 中 的 execute() 方 法 调用 之 前 可 以 附加 一 个 聚合 。 要 在 library 索引 的 book 类 型 
中 创建 一 个 统计 最 小 页 数 的 聚合 ,可 以 编写 如 下 代码 来 实现 : 
MetricsAggregationBuilder aggregation = 
RggregationBuilders .min("min pages").field("pages"); 
SearchResponse searchResponse =Cclient.pPrepareSearch("1ibrary") 
.addAggregation (aggregation) 
-execute () .actionGet () 7 
Min min pages agg =searchResponse.getAggregations().get ("min Pages") 7 
long min pages = (long)min pages agg.getValue(); 
在 这 段 代码 中 ,调用 min0 〇 方法 创建 了 一 个 pages 字段 上 的 metric 聚合 。 执 行 搜索 操 
作 之 后 ,需要 通过 提供 聚合 名 称 从 搜索 响应 信息 中 获取 聚合 结果 ,然后 调用 该 聚合 的 方法 ， 
即 可 得 到 所 需 的 值 。 
类 似 于 Min 聚合 ,指定 其 他 聚合 的 类 别 就 可 以 得 到 其 他 metric 聚合 。 也 可 以 执行 
bucket 聚合 ,然后 从 searchResponse 中 提取 结果 。 


8.7 ” Elasticsearch 插件 


正如 在 第 7 章 中 了 解 到 的 ,Elasticsearch 的 早期 版 本 (5. x 之 前 的 版 本 ) 提 供 了 一 些 插 
件 , 这 些 插 件 被 分 为 三 类 : Java 插件 、 网 站 Site 插件 ,混合 Mixed 插件 。 现 在 的 版 本 中 ,网 站 
插件 和 混合 插件 官方 已 不 再 支持 , 仅 支持 Java 插件 。 这 些 Java 插件 必须 安装 在 每 个 节点 
上 ,并 且 只 包含 JAR 文件 。 在 第 7 章 中 也 对 Elasticsearch 插件 进行 了 介绍 。 

Elastic. co 将 插件 归 为 核心 插件 ,这 些 插件 由 官方 正式 开发 和 维护 。 社 区 插件 由 社区 
开发 和 维护 。 要 使 用 这 些 插件 ,需要 通过 Elasticsearch 插件 程序 将 其 安装 到 Elasticsearch 
中 。 核 心 插件 与 Elasticsearch 共同 发 布 ,并 与 Elasticsearch 版 本 保持 一 致 。 

在 本 节 中 ,将 熟悉 一 些 有 意思 的 插件 。 可 以 指定 核心 插件 的 名 称 , 将 其 安装 到 


Elasticsearch 中 : 
$ ./bin/elasticsearch-plugininstall plugin-name 
社区 插件 可 以 下 载 安 装 包 , 并 使 用 以 下 命令 安装 到 Elasticsearch 中 : 
$ ./bin/elasticsearch-plugininstall path/to/plugin/zip/file 


这 个 程序 可 从 下 列 位 置 安装 : 本 地 文件 系统 ,插件 ZIP 包 的 位 置 URL、GitHub 存储 
库 , 或 Elasticsearch 核心 插件 一 一 直接 指定 插件 的 名 称 即 可 。 
要 想 了 解 在 浏览 器 中 通过 什么 URL 来 访问 插件 ,可 以 使 用 Cat API 列 出 所 有 插件 ,在 
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返回 结果 中 会 显示 每 个 插件 的 URL: 
GET cat/plugins 


有 时 在 Elasticsearch 运行 前 ,让 一 个 插件 已 存在 或 者 已 被 安装 ,是 很 有 必要 的 。 在 这 
种 情况 下 ,可 以 在 elasticsearch. yml 配置 文件 中 ,将 一 些 需 要 用 到 的 插件 设置 为 必 装 插件 。 

例如 ,如 果 需 要 有 EC2 的 Discovery 搜索 功能 ,可 将 其 指定 为 Elasticsearch 的 必 装 
插件 : 


plugin.mandatory: discovery-ec2 


可 以 通过 一 个 以 逗号 分 隔 的 列表 ,来 指定 更 多 的 插件 。 
要 删除 插件 ,只 需 执行 以 下 命令 : 


$ ./bin/elasticsearch-plugin remove Plugin-name 


这 些 插 件 可 以 进一步 按 功能 来 分 类 ,例如 Alerts、 Analysis、 Discovery、 Ingest、 Mapper、 
Scripting 等 。 本 书 不 能 覆盖 所 有 插件 类 型 ,但 会 介绍 上 述 这 些 类 别 的 某 些 插件 。 例 如 ， 
Discovery 插件 可 帮助 我 们 使 用 发 现 节 点 的 功能 并 搭建 集群 。 


8.7.1 Discovery 插件 


这 类 插件 是 非常 有 用 的 ,因为 它们 可 以 使 Elasticsearch 找到 不 同 环境 下 的 集群 节点 。 
默认 情况 下 ,Zen Discovery 被 添加 到 Elasticsearch 中 。 此 外 ,还 有 更 多 插件 可 以 连接 : 

。 Azure cloud: 使 用 Azure API 以 单 播 方 式 发 现 节 点 ,并 且 也 增加 了 Azure 作为 存 

储 库 。 

。 GCE cloud: 这 是 谷歌 计算 引擎 的 云 服务 。 

。 AWS cloud: 使 用 AWS API 支持 EC2 以 单 播 方式 发 现 节 点 。 

这 些 插件 均 由 官方 正式 支持 。 此 外 ,还 有 几 个 社区 支持 的 插件 ,如 eskka discovery 插 
件 、.Kubernetes discovery 插件 等 。 


8.7.2 Ingest 插件 


与 Discovery 插件 发 现 节点 的 设置 类 似 ,Ingest 插件 可 以 在 Elasticsearch 中 启用 Ingest 
节点 的 功能 。 其 中 包含 三 个 插件 : 
。 Geoip 处 理 器 插件 : 使 用 来 自 Maxmind 的 城市 和 国家 数据 库 。 利 用 这 个 数据 库 , 对 
于 文档 中 的 IP, 这 个 插件 会 处 理 其 地 理 位 置 . 然 后 将 详细 信息 存 人 geoip 字段 中 。 
。 用 户 代理 处 理 器 插件 : 从 请 求 头 信息 的 User-Agent 中 提取 用 户 代理 的 相关 信息 。 
。 附件 处 理 器 插件 : 使 用 Tika(Apache 开发 的 工具 包 ) 从 多 个 文件 类 型 中 提取 元 数据 
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和 文本 。 这 个 插件 使 用 Tika, 帮 助 Elasticsearch 从 附件 中 提取 详细 信息 。 常 见 的 
附件 格式 包括 PPT、PDF、XLS 等 。 


8.7.3 Elasticsearch SQL 


有 时 希望 使 用 关系 型 数据 库 视 图 来 查看 数据 ,并 且 和 希望 使 用 SQL 语句 在 索引 中 执行 操 
作 。 该 插件 为 此 提供 了 相应 的 交互 界面 , 它 由 社区 提供 支持 。 要 获取 该 插件 的 资源 可 以 访 
间 https://github. com/NLPchina/elasticsearch-sql。 

要 安装 这 个 插件 ,可 以 执行 以 下 命令 : 

$ ./bin/elasticsearch-plugin install 

https://github. com/NLPchina/elasticsearch - sql/releases/download/5. 1. 1. 0/ 

elasticsearch- sql-5.1.1.0.zip 

网 页 端 插件 从 Elasticsearch 中 移 除 时 ,elasticsearch-sql 不 会 提供 任何 单独 的 交互 界面 
访问 和 执行 SQL 查询 。 可 以 使 用 控制 台 ( 代 蔡 网 页 端 插件 ) 运 行 SQL 查询 。 

一 个 示例 的 请 求 如 以 下 命令 所 示 : 

GET /_sql? sql= select title from library where author in ("Yuvraj Gupta","Ravi 

Kumar Gupta") 


执行 该 命令 返回 的 响应 如 下 面 的 截图 所 示 : 





加 1 |6ET /_sqt?sqL-setect title from library 1-W 
where outhor in("Yuvraj Gupta”, "Ravi 2 | “took": 421, 
[en Kumar Gupta") 3 "timed_out": false, 
zl 4"| "_shards": { 
© 5 “totol": 5, 
6 "successful": 5, 
s 7 "failed": 9 
8- 
£ 9- 
10 
全 11 


": "Library", 
": "book", 





": "Kibana essentiats” 


": "Library", 
"book", 





: 9， 
27- "_source": { 
28 "title": "Test Driven Javascript Developnent" 
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可 以 发 送 一 个 API 请 求 , 它 将 显示 上 述 截 图 中 的 结果 。 可 以 看 到 ,执行 结果 返回 了 所 
有 作者 名 字 包 含 Yuvraj Gupta 和 Ravi Kumar Gupta 的 标题 。 





全 要 了 解 该 插件 的 更 多 信息 ,请 访问 以 下 链接 
https://github. com/NLPchina/elasticsearch-sql/wiki 








8.8 本 章 狼 结 


本 章 对 Elasticsearch API 进行 了 介绍 ,这 是 一 个 非常 庞大 的 话题 。 本 章 内 容 不 能 涵盖 
所 有 的 API, 但 是 通过 本 章 内 容 的 学 习 , 我 们 已 经 了 解 到 这 些 API 如 何 工作 ,以 及 如 何 借助 
相应 的 API 帮助 我 们 管理 Elasticsearch 集群 .节点 和 索引 ,甚至 如 何 搜索 文档 。 使 用 
Kibana 工作 时 ,使 用 控制 台 可 以 做 同样 的 事情 。 在 第 2 章 中 ,我 们 已 经 了 解 了 许多 基于 
REST ,使 用 HTTP 协议 为 多 种 语言 和 平台 开发 的 客户 端 。 本 章 还 包括 其 他 方面 的 内 容 , 如 
调用 Java API 来 使 用 Transport Client 等 。 

在 下 一 章 中 ,将 重点 讨论 如 何 使 用 插件 定制 Elastic Stack。 插 件 使 我 们 能 对 许多 功能 
进行 控制 ,使 我 们 可 以 自由 地 实现 一 些 原本 不 存在 的 功能 ,或 者 修补 现 有 的 功能 ,并 使 其 能 
够 正常 工作 。 下 面 将 学 习 创建 新 插件 的 方法 ,并 对 Stack 进行 个 性 化 定制 。 
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X-Pack 插件 中 的 Security 
与 Monitoring 组 件 


在 前 几 章 中 ,我 们 探讨 了 Elastic Stack 的 四 个 核心 组 件 一 一 Elasticsearch 、Logstash 、 
Kibana 和 Beats。 虽 然 这 些 组件 可 传送 数据 ,并 完成 索引 和 可 视 化 ,但 是 在 生产 级 别 的 体系 
中 ,仍然 有 些 更 为 重要 的 方面 值得 关注 。 在 谈论 生产 环境 中 的 服务 器 时 ,需要 考虑 安全 性 ， 
并 希望 接收 到 有 关 错 误 ,故障 等 事件 的 通知 。 这 些 重要 的 特性 是 X-Pack 关注 的 核心 。 

在 本 章 中 ,将 简要 介绍 X-Pack 插件 中 的 各 种 组 件 ,内 容 将 涵盖 组 件 的 功能 .安装 和 
配置 。 

在 本 章 中 ,将 介绍 以 下 主题 ， 

。 X-Pack 插件 简介 ; 

。 X-Pack 插件 的 安装 ; 

。 探索 Security 组 件 ; 

。 查看 X-Pack 插件 信息 ; 

。 探索 Monitoring 组 件 ; 

。 了 人 解 Profiler。 


9.1 X Pack 介绍 


学 习 X-Pack 插件 之 前 , 先 了 解 X-Pack 插件 的 是 如 何 出 现 的 。 前 面 已 经 讨论 了 Elastic 
Stack ,在 它 的 早期 版 本 中 ,Elasticsearch、Logstash、Kibana 和 Beats 组 件 各 自 的 版 本 之 间 存 
在 差异 。 因 此 ,为 了 避免 用 户 混淆 , Elastic 团队 推出 了 新 版 Elastic Stack, 其 中 
Elasticsearch、Logstash、Kibana 和 Beats 组 件 都 是 统一 的 发 行 版 本 。 使 用 这 些 产品 之 后 , 终 
端 用 户 对 产品 支持 会 有 一 些 需求 ,例如 Elasticsearch 集群 和 Kibana 授权 与 认证 的 需求 .使 
用 简单 而 直观 的 UI 来 监视 Elasticsearch 集群 的 需求 ,以 及 对 强大 的 报警 和 通知 机 制 的 
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X-Pack 是 Elastic Stack 的 扩展 包 。 它 结合 了 Elastic Stack 之 外 的 多 种 产品 ,如 
Shield、Marvel、Watcher 和 Graph, 还 提供 了 额外 的 Reporting 功能 。X-Pack 与 Elastic 
Stack 具有 相同 的 发 行 版 本 ,而 不 是 保留 每 个 产品 的 不 同 版 本 ,并且 始 终 检 查 每 个 产品 的 支 
持 和 矩阵。 现在 不 再 需要 考虑 各 种 产品 及 其 版 本 ,而 只 需要 安装 与 Elasticsearch 对 应 版 本 的 
X-Pack 插件 , 即 可 拥有 所 有 支持 、 维 护 和 兼容 的 产品 。X-Pack 中 的 组 件 可 以 彼此 无 缝 地 配 
合 使 用 ,也 可 以 独立 使 用 ,其 中 提供 了 设置 项 .配置 和 API 接口 .可 以 通过 这 些 渠道 启用 或 
禁用 要 使 用 的 组 件 ,配置 组 件 以 及 访问 有 关 组 件 的 信息 。 


9.2 X Pack 的 安装 


要 安装 X-Pack 插件 ,需要 提前 安装 Elasticsearch 5.0 和 Kibana 5.0。 此 外 ,必须 运行 
与 使 用 的 Elastic Stack 版 本 相 匹 配 的 X-Pack 插件 。 

有 关 Elasticsearch 的 安装 ,请 参阅 第 1 章 Elastic Stack 概述 中 的 安装 Elasticsearch 部 
分 。 有 关 Kibana 的 安装 ,请 参阅 第 1 章 Elastic Stack 概述 中 的 安装 Kibana 部 分 。X-Pack 
插件 将 安装 在 Elasticsearch 和 Kibana 中 ,其 间 将 使 用 Elasticsearch-plugin 和 Kibana- 
plugin 程序 。 


9.2.1 在 Elasticsearch 中 安装 X-Pack 


要 在 Elasticsearch 中 安装 X-Pack ,请 参阅 以 下 步骤 ， 
(1) 在 Elasticsearch 安装 目录 中 运行 以 下 命令 安装 X-Pack 插件 : bin/elasticsearch- 


plugin install x-pack。 





候 如 果 使 用 DEB / RPM 格式 的 安装 包 , 请 以 超级 用 户 身份 ?运行 安装 。 





在 安装 过 程 中 ,系统 会 要 求 向 X-Pack 授予 额外 权限 ,这 是 Watcher 发 送 电 子 邮件 警报 
必需 的 。 输 入 Y 继续 安装 ,或 输入 N 中 止 安装 。 
要 跳 过 安装 提示 符 , 请 使 用 -b 或 一 batch 参数 安装 X-Pack: 


bin/elasticsearch-plugin install x-pack --batch 


(2) X-Pack 会 自动 为 Security、Monitoring 等 组 件 在 Elasticsearch 中 创建 索引 。 因 此 ， 
如 果 已 禁用 自动 创建 索引 ,请 配置 elasticsearch. yml 以 允许 X-Pack 创建 索引 。 在 
elasticsearch. yml 中 添加 以 下 条 目 : 





Q@ 译 者 注 : 在 Linux 操作 系统 中 ,有 些 程序 需要 超级 管理 员 提 供 执行 权限 , 方 可 执行 。 在 终端 命令 开头 加 上 sudo， 
执行 时 输入 管理 员 密码 , 即 可 提升 权限 执行 程序 。 
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action.auto_create_index: 


-Security, .monitoring* ,.watches, .triggered watches, .watcher-history* 


(3) 在 Elasticsearch 安装 目录 中 启动 Elasticsearch。 如 果 已 安装 Elasticsearch, 则 作为 
服务 启动 : 


bin/elasticsearch 


sudo service elasticsearch start 


9.2.2 在 Kibana 中 安装 X-Pack 


要 在 Kibana 中 安装 X-Pack 插件 ,请 参阅 以 下 步 又 : 
(1) 运行 以 下 命令 ,在 Kibana 安装 目录 中 安装 X-Pack: 


bin/kibana-plugin install x-pack 


人 @ 如 果 使 用 DEB/RPM 格式 的 安装 包 , 请 以 超级 用 户 身份 运行 安装 。 





(2) 从 Kibana 安装 目录 中 启动 Kibana。 如 果 已 安装 Kibana, 则 作为 服务 启动 : 


bin/kibana 

sudo service kibana start 

要 验证 X-Pack 的 安装 ,可 在 浏览 器 中 输入 Kibana 配置 文件 中 主机 字段 保存 的 URL 
或 localhost:5601( 默 认 主 机 地 址 ) ,浏览 器 中 将 会 显示 Kibana 登录 界面 。 

现在 你 可 能 想 知道 如 何 登录 。“ 我 从 来 没有 设置 密码 ,可 是 现在 Kibana 居然 要 求 我 输 
入 密码 ?” 不 要 担心 ,默认 用 户 名 是 “elastic” ,默认 密码 是 “changeme”?。 


全 使 用 bin/elasticsearch-plugin 和 bin/kibana-plugin 脚本 时 ,需要 Internet 网 络 连 


接 才 能 下 载 并 安装 X-Pack。 








9.2.3 在 离线 系统 中 安装 X-Pack 


要 在 离线 系统 中 安装 X-Pack 插件 ,请 参阅 以 下 步骤 : 
(1) 在 有 Internet 连接 的 系统 上 ,从 以 下 URL 下 载 X-Pack 二 进 制 软件 包 : 


https://artifacts.elastic.co/downloads/packs/x-pack/x-pack-5.1.1.zip 


Q@ 译 者 注 : Elastic 希望 用 户 在 初次 使 用 X-Pack 插件 时 尽快 修改 密码 以 提高 安全 性 ,所 以 将 默认 密码 设置 为 
changeme( 意 为 “请 把 我 改 了 吧 ”) 。 
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(2) 将 下 载 的 ZIP 文件 复制 或 传输 到 离线 系统 。 
(3) 使 用 以 下 命令 从 Elasticsearch-plugin 程序 安装 X-Pack 插件 : 


bin/elasticsearch-plugin install 
file:///home/yuvraj/Downloads/x-Pack-5.1.1.zipD 





仿 如 果 使 用 DEB / RPM 格式 的 安装 包 , 请 以 超级 用 户 的 身份 运行 安装 。 








(4) 使 用 以 下 命令 从 Kibana-plugin 程序 安装 X-Pack 插件 : 


bin/kibana-plugin install 


file:///home/yuvraj/Downloads/x-pack-5.1.1.zip 


议 之 后 指定 ZIP 文 





安装 X-Pack 插件 后 ,所 有 功能 都 已 安装 并 启用 ,如 Shield、Marvel、Watcher、Graph 和 
Reporting 等 。 要 在 安装 X-Pack 后 查看 信息 ,可 以 使 用 X-Pack API, 这 些 将 会 在 后 面 的 “ 查 
看 X-Pack 信息 ”一 节 中 介绍 。 


全 如果 安装 X-Pack 时 Elasticsearch 或 Kibana 已 经 运行 ,请 重新 启动 Elasticsearch 


或 Kibana。 没 有 重新 启动 之 前 ,X-Pack 的 设置 可 能 不 会 立即 应 用 于 Elasticsearch 
和 Kibana, 这 样 在 使 用 过 程 中 可 能 会 遇 到 问题 。 





9.2.4 ”和 镍 载 X-Pack 


要 印 载 X-Pack 插件 ,请 参阅 以 下 步 又 : 
(1) 关闭 Elasticsearch 和 Kibana。 
(2) 在 Elasticsearch 安装 目录 中 运行 以 下 命令 ,从 Elasticsearch 中 删除 X-Pack 插件 : 


bin/elasticsearch-plugin remove x-pack 
(3) 在 Kibana 安装 目录 中 运行 以 下 命令 ,从 Kibana 中 删除 X-Pack 插件 : 


bin/kibana-plugin remove x-pack 





全 如 果 使 用 DEB/RPM 格式 的 安装 包 , 请 以 超级 用 户 的 身份 执行 此 命令 








Q@ 译 者 注 : 在 这 行 命令 中 ,最 后 一 个 参数 指定 了 本 地 文件 系统 中 一 个 文件 的 存储 位 置 ,这 里 “file:/// 路 径 ” 的 写法 
是 一 种 特定 的 协议 书写 格式 ,由 “file://”" 和 “/ 路 径 " 组 成 。 这 种 路 径 格 式 用 来 提供 文件 的 绝对 路 径 。 
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(4) 启动 Elasticsearch 和 Kibana。 
现在 探讨 X-Pack 插件 中 的 各 个 组 件 。 


9.3 Security 组件 


X-Pack 插件 的 Security 是 一 种 模块 。 它 是 针对 访问 集群 数据 时 所 需 适 当 授 权 机 制 的 
需求 而 创建 的 ,最 初 是 出 于 Elasticsearch 集群 安全 性 的 需要 ,目前 已 经 超越 了 这 一 点 ,甚至 
可 以 安全 地 使 用 Kibana UI(Kibana 用 户 界面 ) 并 只 允许 授权 用 户 访问 。 

安全 性 通常 涉及 三 A 问题 : 

。 认证 (Authentication) : 根据 用 户 的 身份 认证 用 户 。 

。 授权 (Authorization) : 对 于 经 过 身份 验证 的 用 户 ,描述 其 授权 的 角色 /权限 。 

。 问 责 制 (Accountability) : 记录 用 户 会 话 (session) 信 息 ,使 用 信息 等 。 

考虑 以 上 三 A 问题 ,Elastic 团队 使 用 Shield 作为 X-Pack 安全 模型 ,以 确保 三 A 问题 


被 完整 涵盖 。 
对 于 认证 , 它 提供 对 未 授权 访问 的 限制 ,包括 基本 密码 保护 、 组 织 级 用 户 管理 和 基于 IP 
的 授权 。 


对 于 授权 , 它 提供 基于 角色 的 访问 控制 ,其 中 定义 了 经 过 身份 验证 的 用 户 所 具有 的 角色 
以 及 基于 索引 操作 的 特权 。 

对 于 问 责 制 , 它 提供 完整 的 审计 跟踪 ,通过 跟踪 集群 中 执行 的 所 有 操作 和 用 户 级 信息 ， 
收集 与 每 个 用 户 执行 的 身份 验证 和 授权 相关 的 信息 。 

为 什么 要 同时 为 Elasticsearch 和 Kibana 安装 X-Pack? 为 什么 要 在 两 者 上 安装 X- 
Pack? 如 果 只 安装 在 Elasticsearch 或 Kibana 上 ,就 不 能 使 用 它 吗 ? 

这 个 问题 的 答案 是 不 行 。Elasticsearch 是 数据 传输 /存储 层 , 需 要 X-Pack 用 于 集群 / 节 
点 相关 的 配置 。 作 为 数据 可 视 化 层面 的 Kibana 需要 X-Pack 用 于 不 同 的 功能 ,例如 通过 身 
份 验证 ,报告 和 管理 X-Pack 的 设置 来 保护 Kibana UI。 此 外 ,X-Pack 中 的 安全 模块 只 有 在 
Elasticsearch 和 Kibana 上 均 安 装 了 X-Pack 时 才 有 效 。 

在 Elastic Stack 5.0 版 本 发 布 之 前 ,使 用 Shield 来 保护 Elasticsearch 集群 ,这 需要 用 户 
使 用 REST API 执行 操作 ,例如 添加 新 用 户 ,验证 用 户 ,提供 权限 ,对 每 个 用 户 配 置 角色 , 提 
供 对 索引 的 访问 ,控制 访问 权限 ,更 改 用 户 密 码 以 及 添加 用 户 信 息 等 。 通 过 将 X-Pack 扩展 
到 Kibana ,并 在 Kibana 中 添加 了 新 的 Management( 管 理 ) 选 项 卡 ,现在 所 有 使 用 REST API 
执行 的 操作 均 只 需 单 击 下 界面 中 的 按钮 即 可 完成 配置 。 

下 面 探讨 如 何 使 用 Kibana UI 和 REST API 创建 用 户 , 配 置 角色 以 及 配置 索引 级 权限 。 
我 们 将 使 用 Management 选项 卡 ,该 选项 卡 已 经 在 第 4 章 Kibana 界面 中 的 探索 设置 
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(Management) 界 面部 分 介绍 过 。 

打开 Management 选项 卡 后 ,可 以 将 其 中 的 选项 分 为 两 部 分 , 即 Elasticsearch 和 
Kibana。 对 于 与 Shield 相关 的 安全 配置 ,我 们 将 使 用 用 户 和 角色 从 Kibana UI 中 配置 
Shield 的 设置 项 。 


9.3.1 列 出 所 有 Security 中 的 用 户 
要 列 出 全 部 用 户 ,请 单 击 界面 上 方 的 Users, 跳 转 到 以 下 界面 : 


区 Management 7 Elastcsearen 
CW Users Roles 





Full Name~ Usermame Roles 


uk 





oo 





在 上 面 的 屏幕 截图 中 可 以 看 到 ,已 经 创建 了 两 个 用 户 作 为 默认 用 户 , 即 elastic 和 
kibana ,它们 被 配置 了 不 同 的 角色 。 


全 这 两 个 用 户 都 是 系统 保留 的 , 即 不 能 修改 或 删除 ;只 能 修改 它们 的 密码 。 





要 使 用 REST API 列 出 所 有 的 用 户 ,可 以 使 用 以 下 命令 : 
Curl -XGET localhost:9200/ xpack/security/user 


在 上 述 命令 中 ,localhost 表示 主机 名 ,9200 表示 端口 名 称 ，xpack 是 开放 给 API 的 X- 
Pack 相关 设置 的 参数 ,security 表示 命令 中 使 用 了 X-Pack 安全 性 的 API。 
运行 上 述 命 令 后 ,会 收 到 报错 信息 ,说明 原因 如 下 : 


"reason" : "missing authentication token for REST request 


出 现 问题 的 原因 是 对 安全 性 的 理解 出 现 错误 ,也 就 是 说 ,如 果 请 求 来 自任 何 没有 指定 用 
户 名 和 密码 的 用 户 ,将 抛 出 一 个 错误 ,因为 无 法 验证 用 户 。 
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全 即使 启用 了 Security 功能 ,也 可 以 允许 执行 匿名 访问 用 户 执行 的 查询 。 











因此 ,要 使 用 Elasticsearch 上 的 REST API 执行 任何 操作 ,需要 提供 用 户 名 ,因为 已 经 
启用 了 X-Pack 中 的 Security 功能 。 
要 列 出 所 有 使 用 REST API 的 用 户 , 需 要 在 命令 中 传递 用 户 名 如 下 : 


Curl -XGET - -user elastic localhost:9200/ xpack/security/user 


系统 将 要 求 用 户 elastic 输入 密码 ;一 经 验证 ,结果 中 将 列 出 用 户 。 此 外 ,也 可 以 在 
REST API 中 提供 密码 以 及 用 户 名 ,方法 如 下 所 示 : 


Curl -XGET - -user elastic:changeme localhost:9200/ xpack/security/user 


安装 Kibana 之 后 ,Sensitive Console 已 经 作为 Dev Tools( 开 发 工具 ) 的 一 部 分 ,可 以 使 
用 Sense Console 在 REST API 上 运行 curl 命令 。 该 命令 的 语法 如 下 所 示 : 


GET xpack/security/user 


为 了 便于 理解 ,将 使 用 Sense Console 语法 来 展示 curl 命令 。 
9.3.2 列 出 Security 中 的 角色 
要 列 出 全 部 角色 ,请 单 击 界面 上 方 的 Roles, 将 跳 转 到 以 下 界面 : 


区 Management 1 Elasticseareh 
人 Users Roles 





日 Reserved 
@ Reseved 
OReserved 
日 Reserved 
© Reserved 
OReserved 


日 Reserved 











在 上 图 中 ,可 以 看 到 已 经 创建 了 默认 角色 ,它们 是 : ingest_admin、 kibana_ user、 


monitoring_user remote_ monitoring_agent,reporting_user .superuser 和 transport_client。 
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人 这些 默 认 的 角色 ?是 系统 保留 的 . 即 不 能 修改 或 删除 。 








要 使 用 控制 台 列 出 角色 ,请 执行 如 下 命令 : 

GET xpack/security/role 

角色 在 这 里 是 十 分 重要 的 ,因为 它们 基于 分 配给 每 个 角色 的 权限 来 提供 对 集群 和 索引 
的 访问 控制 。 它 可 以 使 特定 用 户 按照 指定 的 权限 访问 集群 和 索引 。 
9.3.3 了 解 Security 中 的 角色 

单 击 kibana_user 这 一 角色 ,将 跳 转 到 以 下 界面 : 


区 Management 7 Elasncsearch 7 Roles /Edit 
CW Users Roles 








@ 





View Role 
[el 
Name kbana user OReserved 
© 
EE cluster privileges 
可 Smonitor manage ~ manage security “manage index templates 

Eo Run As Priviieges 
a sdower 
六 

Indices Privileges 

a 29 a EDCOC2D 

Q Addafeld 











在 上 图 中 ,包含 了 多 种 特权 条 目 . 例 如 Cluster Privileges、 Run As Privileges 和 Indices 
Privileges, 看 起 来 十 分 复杂 。 让 我 们 来 详细 了 解 其 中 的 每 个 特权 。 


9.3.3.1 了 解 Cluster 集群 特权 
集群 特权 提供 了 在 集群 上 执行 各 种 操作 的 权限 。 它 们 可 以 分 为 五 种 设置 ,解释 如 下 : 


。 all: 提供 对 集群 中 可 以 执行 的 所 有 操作 的 访问 权限 。 通 过 使 用 此 权限 ,甚至 可 以 关 
闭 或 重新 启动 节点 。 


。 monitor: 提供 对 集群 的 访问 权限 ,可 以 从 集群 中 读 取 数 据 以 进行 监视 。 其 中 的 权限 包 
括 但 不 限于 确定 集群 信息 、 节 点 信息 、 节 点 (node) /集群 (cluster) /快照 (snapshot) /恢复 


四 译 者 注 : 原文 中 “角色 ”对 应 的 单词 为 rules, 笔 者 认为 应 为 roles。 
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(Crestore) 的 状态 等 。 

manage: 提供 monitor 特权 的 附加 功能 ,包括 执行 集群 更 新 操作 的 权限 ,例如 集群 的 
rerouting 和 updating 操作 。 

manage_security: 提供 对 角色 和 用 户 的 CRUD( 增 删改. 查 ) 操 作 的 访问 ,以 便 管理 
安全 性 。 

manage_index_templates: 提供 对 索引 模板 (index templates) 上 可 执行 的 所 有 操作 的 
访问 。 


9.3.3.2 了 解 Run as 特权 


Run as 权限 是 一 种 特殊 类 型 的 权限 ,可 用 于 经 过 身份 验证 的 用 户 。 使 用 这 种 权限 时 ， 
经 过 身份 验证 的 用 户 可 以 代表 其 他 用 户 提交 请 求 , 可 以 提供 或 限制 访问 权限 来 执行 其 他 用 
户 的 操作 ,而 无 须 重新 认证 用 户 。 可 以 指定 提供 Run as 特权 的 用 户 名 。 有 时 , 它 也 被 称 为 
模拟 (impersonation) ,是 一 种 模拟 其 他 用 户 的 方式 。 


9.3.3.3 了 解 索引 特权 
索引 (indices) 特权 为 在 索引 上 执行 各 种 操作 提供 了 特权 。 它 们 可 以 被 分 为 以 下 设 


置 项 


All: 这 项 特权 提供 对 索引 执行 的 所 有 操作 的 访问 权限 。 

Monitor: 这 项 特权 提供 对 索引 监视 所 需 的 所 有 操作 的 访问 ,如 索引 信息 ,状态 等 。 
Manage: 这 项 特权 提供 monitor 特权 的 附加 功能 , 它 提 供 了 索引 管理 任务 的 访问 权 
限 ,包括 但 不 限于 索引 设置 .使 用 别名 、 使 用 分 词 器 等 。 

Read: 这 项 特权 提供 对 索引 的 只 读 访问 权限 ,例如 搜索 数据 、 获 取 数 据 ,以 及 其 他 
actions, 如 计数 .验证 .运行 percolator 等 。 此 外 , 它 还 提供 更 新 索引 映像 (mapping) 


的 权限 。 
Index: 这 项 特权 提供 对 访问 索引 、 更 新 索引 中 文档 的 权限 。 此 外 , 它 还 提供 了 更 新 
映像 的 权限 。 


Create: 这 项 特权 仅 提 供 对 索引 文档 的 访问 权限 。 此 外 . 它 还 提供 更 新 映像 的 权限 。 


。 Delete: 这 项 特权 仅 提供 删除 索引 中 文档 的 权限 。 


Write: 这 项 特权 提供 所 有 对 索引 执行 写 入 操作 .例如 创建 索引 、 更 新 和 删除 文档 的 
权限 。 它 还 提供 了 执行 批量 操作 (如 批量 插入 、 处 理 等 ) 的 访问 。 

Delete_index: 这 项 特权 仅 提 供 删 除 索 引 的 权限 。 

Create_index: 这 项 特权 仅 提 供 创建 索引 的 权限 。 如 果 需 要 在 索引 中 插入 文档 ,那么 
还 需要 write 权限 。 
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。 View_index_metadata: 这 项 特权 提供 查看 索引 元 数据 的 访问 权限 ,如 对 索引 的 设置 
信息 (创建 日 期 ,分 片 数 、 副 本数 等 ) 和 映像 (索引 字段 名 称 及 其 数据 类 型 )。 
在 索引 特权 中 ,可 以 用 到 单个 或 多 个 索引 的 名 称 、 索 引 的 权限 、 限 制 用户 访 问 的 查询 以 
及 限制 用 户 仅 查看 的 字段 名 称 。 
我 们 已 经 讨论 了 各 种 特权 的 含义 ,现在 尝试 解释 默认 用 户 的 角色 ,以 了 解 它们 提供 了 哪 
些 权 限 。 


9.3.4 理解 默认 用 户 角色 
让 我 们 来 看 看 这 些 默 认 创 建 的 用 户 角 色 , 即 kibana_user、superuser 和 transport_client 。 





9.3.4.1 kibana_user 


集群 特权 被 设 为 monitor, 即 这 一 特权 仅 提 供 读 操作 的 权限 。 拥 有 此 权限 的 角色 不 允许 
在 集群 上 进行 任何 写 入 、 更 新 、 删 除 操作 。 

在 索引 特权 中 ,索引 的 名 称 被 设置 为 . kibana * ,权限 被 设置 为 manage、 read、index 和 
delete。 这 意味 着 用 户 可 以 使 用 以 . kibana 开头 的 名 称 访问 索引 ,并 且 可 以 执行 诸如 监视 权限 ， 
在 索引 上 的 管理 操作 ,对 actions 的 读 取 操 作 , 索 引文 档 , 更 新 索引 的 映像 ,对 文件 的 更 新 和 删 
除 等 操作 。 它 不 能 执行 诸如 对 索引 写 人 ,创建 索引 ,删除 索引 以 及 查看 索引 的 元 数据 等 操作 。 


9.3.4.2 Superuser 

集群 特权 被 设置 为 all, 即 用 户 可 以 对 集群 执行 任何 操作 。 

在 索引 特权 中 ,索引 名 称 被 设置 为 * ,权限 被 设置 为 all。 这 意味 着 用 户 可 以 访问 所 有 
索引 ,并 且 可 以 根据 需要 在 任何 索引 上 执行 任何 操作 。 

9.3.4.3 transport_client 

这 一 角色 没有 被 赋予 任何 集群 特权 , 即 用 户 无 法 对 集群 执行 任何 操作 ,无 论 是 监视 还 是 
管理 任务 。 该 角色 也 没有 任何 特权 访问 任何 索引 。 它 只 拥有 在 使 用 transport API 执行 交 
互 时 访问 所 有 的 字段 的 权限 。 
9.3.5 在 Security 中 添加 新 角色 


要 创建 新 角色 ,请 转 到 Kibana 的 Management 选项 卡 , 并 单 击 Role。 然 后 单 击 New 
Role( 新 建 角 色 ) , 单 击 之 后 将 跳 转 到 指定 角色 名 称 和 权限 的 页 面 。 

指定 角色 的 名 称 , 然 后 选择 为 集群 提供 的 权限 ,指定 要 提供 的 任何 Run as 特权 ,选择 索 
引 的 各 种 权限 ,如 权限 后 面 的 索引 名 称 、 限 制 访问 权限 的 查询 ,以 及 限制 或 授予 字段 访问 权 
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限 的 字段 安全 性 设置 。 


人 用户 名 必须 以 字母 或 下 面 线 开头 , 并 且 可 以 包含 字母 .数字 和 特殊 字符 ,例如 *_” 
“$”“.“@”“-”。 用 户 名 最 少 包 含 1 个 字符 ,最 多 可 包含 30 个 字符 。 密 码 必须 至 
少 为 6 个 字符 ,最 多 为 50 个 字符 。 





























要 使 用 控制 台 添加 角色 ,请 执行 如 下 命令 : 


POST /_xpack/security/role/testing 


{ 
"oluster" fan 
"indices" :[ 
| 
"names": ["education"], 
"privileges": ["manage","read","index","delete"], 
"query": "{\"match\":{\"State\":\"GA\"}}", 
"Eioldb": ["*"] 
} 
1 
} 


八 需 要 将 查询 中 开始 和 结束 双 引 号 以 外 的 双 引号 进行 转 义 。 





执行 上 述 命令 将 返回 以 下 信息 : 


{ 
"role": { 
"created": true 
} 

} 


在 上 述 代码 中 ,testing 是 在 POST 中 指定 的 角色 名 称 。 





全 可 以 通过 指定 POST 或 PUT 来 创建 角色 ,也 可 以 使 用 PUT 或 POST 来 更 新 
角色 。 





9.3.6 在 Security 中 更 新 角色 


要 更 新 角色 的 详细 信息 ,例如 集群 特权 、Run as 特权 、 索 引 特 权 、 索 引 名 称 、 查 询 或 字 
段 ,请 转 到 Kibana 中 的 Management 选项 卡 .并 单 击 Roles .然后 单 击 要 修改 的 角色 名 称 。 
然后 ,可 以 更 改 各 种 权限 ,更改 后 单 击 Save 保存 。 
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要 使 用 控制 台 (Console) 更 新 角色 ,执行 如 下 命令 : 


POST / xpack/security/role/testing 
{ 
"cluster" :["all"], 
"indices" :[ 
{ 
"names": ["education",".kibana"], 
"privileges": ["* "]， 
"fields": ["*"] 
} 
] 
} 


执行 上 述 命令 将 返回 以 下 信息 : 
{ 
"rolG": { 


"created": false 


} 


9.3.7 了 解 字段 级 的 Security 


关键 字 field_security 提供 了 授权 或 限制 用 户 要 访问 的 字段 权限 的 功能 。 默 认 情 况 下 ， 
有 少量 元 字段 始终 为 用 户 提供 访问 权限 ,例如 _id、type、parent、routing 、timestamp、 
_ttl、size 和 _index。 要 使 用 任何 其 他 元 字段 ,必须 显 式 提供 _all,_source 等 字段 。 
可 以 使 用 以 下 表达 式 来 授予 或 限制 访问 权限 : 
。 提供 字段 名 称 : 直接 指定 字段 的 名 称 . 例 如 "grant": ["_all", "message" ]。 
。 使 用 通配符 表达 式 : 指定 字段 的 模式 .例如 "except" : ["date- x "]。 
。 访问 构 套 字段 : 读 取 幅 套 字段 ,例如 "grant”: ["date. time"j, 其 中 time 是 嵌 套 字段 
的 日 期 。 
。 带 嵌 套 字段 的 通配符 : 读 取 多 个 嵌 套 字段 ,例如 "grant" : ["date. * "]。 
。 将 授权 与 排除 (except) 合 并 : 指定 要 访问 的 字段 和 用 户 不 能 访问 的 字段 ,例如 : 
"grant" : [ "date.x"] 


"except": [ "date.time" ] 


在 上 面 的 例子 中 ,将 提供 访问 除 date. time 字段 之 外 的 所 有 以 date 开头 的 字段 。 
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9.3.8 在 Security 中 添加 新 用 户 


要 创建 新 用 户 ,请 转 到 Kibana 的 Management 选项 卡 ,并 单 击 Users 
User , 跳 转 到 如 下 界面 : 





。 然 后 单 击 New 














在 上 图 中 可 以 看 到 ,要 创建 一 个 新 用 户 , 需 要 指定 用 户 名 、 密 码 、 全 名 、 电 子 邮 件 和 角色 。 
所 有 字段 的 填写 都 必须 使 用 Kibana UI。 可 以 根据 要 求 为 每 个 用 户 指定 单个 或 多 个 角色 。 





全 用户 名 必须 以 字母 或 下 面 线 开头 ,并 且 可 以 包含 字母 .数字 和 特殊 字符 ,例如 “_” 


“$”.”“@”-”。 用 户 名 最 少 包 含 1 个 字符 ,最 多 可 包含 30 个 字符 。 密 码 必 须 至 
少 为 6 个 字符 ,最 多 为 50 个 字符 。 





使 用 控制 台 添 加 用 户 ,该 命令 的 执行 等 效 于 在 Kibana UI 中 单 击 用 户 全 名 或 用 户 名 的 
操作 ,如 下 所 示 : 


POST / xpack/security/user/test 

' 
"password" : "test@123", 
"roles" : [ "kibana user", "transport client" ], 
"full name" : "Testing User", 


"email" : "test@ test.com" 





傅 可 以 通过 指定 POST 或 PUT 来 创建 用 户 。 要 更 新 除 用 户 名 和 密码 之 外 的 用 户 信 
息 , 请 使 用 PUT 或 POST 更 新 详细 信息 。 要 更 新 密码 可 以 使 用 Reset Password API。 
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执行 上 述 命 令 将 返回 以 下 内 容 : 





"user": { 
"created": true 
} 

. 


在 上 述 代 码 中 ,test 是 与 POST 一 起 指定 的 用 户 名 。 





人 @ 要 对 用 户 执行 CRUD( 增 、 删 改 、 查 ) 操 作 ,必须 至 少 具有 一 个 manage_security 
集群 特权 。 





9.3.9 在 Security 中 更 新 用 户 详细 信息 


要 更 新 用 户 的 详细 信息 ,如 密码 ,全 名 、 电 子 邮 件 和 角色 ,请 转 到 Kibana 的 Management 
选项 卡 , 并 单 击 Users。 
然后 单 击 Full Name 或 Username, 单 击 之 后 将 跳 转 到 如 下 界面 : 








Management / Elastcsearch / Users / Edlt 


区 Users Roles 


Edit User 





Usemame test 
Password Change Password 
FulName TestngUser 


Email test@testcom 











如 上 图 所 示 , 可 以 更 改 用 户 的 密码 、 全 名 、 电 子 邮 件 和 角色 。 进 行 更 改 后 ,可 以 单 击 保存 。 
要 使 用 控制 台 更 新 用 户 的 详细 信息 ,请 执行 如 下 所 示 的 命令 : 


PUT /_xpack/security/user/test 
{ 
"password" : "test@123", 


"roles" : [ "kibana user", "transport client" ], 
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"full name" : "Test User", 


"email" : "test@ test.co.in" 


"user": { 
"created": false 
} 

} 


9.3.10 在 Security 中 修改 用 户 密码 


可 以 使 用 Management 选项 卡 更 改 用 户 的 密码 ,如 前 面 在 Security 中 更 新 用 户 详细 信息 
部 分 所 述 。 
要 使 用 控制 台 更 改 用 户 的 密码 ,执行 如 下 命令 : 


PUT /_xpack/security/user/test/ password 


{ 
"password" : "test123" 


} 
执行 此 命令 将 返回 如 下 内 容 : 
{) 
会 收 到 一 个 空 的 回复 ,表示 密码 已 被 更 改 。 
9.3.11 在 Security 中 删除 角色 
要 删除 角色 ,请 转 到 Kibana 的 Management 选项 卡 ,并 单 击 Roles。 接 着 选中 要 删除 的 


角色 名 称 旁 边 的 复 选 框 ,然后 单 击 Delete 按钮 ,将 要 求 确认 删除 所 选 的 角色 。 
要 使 用 控制 台 删 除 角 色 ,执行 以 下 命令 : 


DELETE /_xpack/security/role/testing 


9.3.12 在 Security 中 删除 用 户 


要 删除 用 户 ,请 转 到 Kibana 的 Management 选项 卡 ,并 单 击 Users。 接 着 选中 要 删除 的 
用 户 名 旁边 的 复 选 框 , 然 后 单 击 Delete 按钮 ,将 要 求 确 认 删 除 所 选 的 用 户 。 
要 使 用 控制 台 删 除 角色 ,执行 以 下 命令 : 
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DELETE / xpack/security/user/test 


了 解 Security 组 件 之 后 ,让 我 们 来 查看 X-Pack 插件 的 信息 。 
9.4 查看 X Pack 信息 


X-Pack 插件 提供 了 一 个 API, 可 以 使 用 它 来 查看 插件 的 信息 。 它 提供 了 构建 细节 、 许 
可 证 详细 信息 以 及 X-Pack 插件 中 每 个 组 件 的 详细 信息 。 
要 在 Kibana UI 中 使 用 控制 台 查 看 信息 ,执行 如 下 命令 : 


GET /_xpack 


执行 此 命令 将 返回 如 下 响应 信息 : 


"build": { 
"hash": "821d294", 
"date": "2016-12-06T13:09:18.0572" 
}, 
"license": { 
"uid": "e065e495- 3fb4- 4cb5- 8233- 263074ee57e7", 
"type": "trial", 
wmoden "trial®, 
"status": "active", 
"expiry date in millis": 1485882488285 
}, 
"features": { 
"qraph™"s { 
"description": "Graph Data Exploration for the Elastic Stack", 
"available": true, 
"enabled": true 
}, 
"monitoring": { 
"description": "Monitoring for the Elastic Stack", 
"available": true, 
"enabled": true 
}, 
"security": { 
"description": "Security for the Elastic Stack", 
"available": true, 
"enabled”: true 


}, 
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"watcher": { 
"description": "Alerting, Notification and Automation for the Elastic 
Stack", 
"available": true, 
"enabled": true 

} 

}, 

"tagline": "You know, for xX" 

} 


结果 中 提供 了 有 关 组 件 的 信息 以 及 启用 的 字段 ,这 意味 着 可 以 灵活 地 启用 或 禁用 想 要 
使 用 的 功能 。 
要 获取 X-Pack 插件 许可 证 的 详细 信息 ,执行 如 下 命令 : 


GET /_xpack/license 


执行 此 命令 将 返回 如 下 响应 信息 : 


"license": { 
"status": "active", 
"uid": "e065e495- 3fb4- 4cb5- 8233- 263074ee57e7", 
Do 和 PEA 
"issue date": " 2017-01-01T17:08:08.2852"， 
"issue date in millis": 1483290488285, 
"expiry date": " 2017-01-31T17:08:08.2852", 
"expiry date in millis": 1485882488285, 
"max nodes": 1000, 
"issued to": "elasticsearch", 
"issuer": "elasticsearch", 
"start date in millis"; -1 
于 

} 


下 面 来 看 看 如 何 通 过 配置 来 启用 或 禁用 其 中 的 功能 。 
要 启用 或 禁用 X-Pack 插件 的 特征 功能 ,请 将 以 下 设置 添加 到 elasticsearch. yml 和 
kibana. yml 配置 文件 中 : 


xpack.security.enabled 
xpack.monitoring.enabled 
xpack.graph.enabled 
xpack.watcher.enabled 


xpack.reporting.enabled 
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将 上 述 设 置 值 设置 为 false 将 禁用 相应 的 功能 ,同样 ,将 其 设置 为 true 将 启用 它们 。 下 
面 我 们 来 探讨 X-Pack 插件 中 的 其 他 组 件 。 


9.5 Monitoring 组 件 


Monitoring 是 X-Pack 插件 中 的 另 一 个 组 件 , 它 已 经 不 再 需要 使 用 UI 来 监视 
Elasticsearch 的 集群 .索引 和 节点 。 它 提供 了 每 个 集群 ,集群 中 每 个 索引 以 及 每 个 节点 的 详 
细 统 计 信息 。 

将 Monitoring 组 件 纳入 X-Pack, 就 可 以 直接 从 Kibana 访问 Monitoring UT, 而 无 须 从 
Kibana 界面 跳 转 至 其 他 界面 。 此 前 , 它 被 称 为 Marvel, 可 提供 UI 来 监视 和 获取 Elasticsearch 
集群 .节点 和 索引 的 统计 信息 ,甚至 可 以 看 到 正在 运行 的 Kibana 实例 (instance) 的 性 能 ,这 是 一 
个 附加 功能 。 

Monitoring 由 两 个 子 组 件 构成 : 监控 代理 (monitoring agent) 和 监控 程序 (monitoring 
application) 。 监 控 代 理 将 安装 在 要 获取 统计 信息 的 每 个 节点 上 ， ee Kibana 中 的 
Monitoring 面板 收集 Elasticsearch 中 用 来 执行 可 视 化 的 数据 和 索引 。 它 存在 于 
Elasticsearch 的 X-Pack 插件 中 ,分 别 安装 在 每 个 节点 上 。 此 外 ， pb 灵活 地 对 同 
一 个 集群 或 不 同 集群 上 的 数据 创建 索引 。 监 控 程 序 提供 用 户 界面 来 查看 统计 信息 。 它 同时 
也 存在 于 Kibana 的 X-Pack 插件 中 ,被 安装 在 所 要 查看 信息 的 机 器 上 。 

下 面 介 绍 X-Pack 插件 中 Monitoring 组 件 提供 的 各 种 统计 信息 。 要 查看 Monitoring 
组 件 , 可 使 用 Kibana 左 侧 导航 窗 格 中 的 Monitoring 选项 。 跳 转 后 ,将 看 到 以 下 界面 : 


Chusters MW 0seconds © Lst1 hour 











Instances: 1 
Jests: Connections: 
Me Pesponae Timies aiame MI Sp mn iny 








在 上 图 中 可 以 注意 到 一 些 信息 。 在 项 部 窗 格 中 可 以 看 到 ,默认 情况 下 ,监视 UI 中 的 信 
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息 每 10 秒 更 新 一 次 ,正在 查看 最 近 每 1 小 时 的 数据 。 此 外 ,可 以 看 到 集群 名 称 , 在 这 里 只 有 
一 个 , 即 Elasticsearch。 在 页 面 的 下 半 部 分 ,可 以 看 到 两 个 方 框 ,一 个 用 于 显示 Elasticsearch 
的 信息 , 而 另 一 个 显示 Kibana 信息 , 它 提 供 Monitoring 组 件 返回 的 统计 信息 。 
Elasticsearch 的 方 框 中 给 出 了 相关 的 简要 信息 ,例如 集群 状态 (Status) 、 集 群 正常 运行 时 间 
(Uptime) ,可 用 磁盘 空间 总 容量 (Disk Available) JVM 堆 占 用 百分比 (JVM Heap) 和 索引 

数量 (Indices) ,以 及 其 他 信息 如 文件 数 (Documents)、 用 于 存储 文档 的 分 片 总 数 (Primary 
Shards/ Replica Shards) 和 磁盘 空间 总 容量 (Disk Usage) 。 此 外 ,还 可 以 看 到 使 用 的 X-Pack 
许可 证 的 有 效 期 。 对 于 X-Pack 的 试用 版 ,可 以 免费 使 用 30 天 。Kibana 的 方 框 给 出 了 
Kibana 状态 的 简要 信息 ,包括 Kibana 正在 运行 的 实例 数量 (Instances) 以 及 其 他 信息 ,如 请 
求 总 数 (Requests) .连接 数 (Connections) 内 存 占 用 百分比 (Memory Usage) 和 最 大 响应 时 
间 (Max. Response Time) 。 

我 们 来 看 看 各 种 可 用 的 Elasticsearch 和 Kibana 监控 信息 。 


9.5.1 探索 Elasticsearch 的 监控 统计 
单 击 方 框 中 的 Elasticsearch 名 称 后 ,将 跳 转 到 如 下 界面 : 





Clusters / elasticsearch / Elasticsearch MM 10seconds ©@Lastlhour 
Overview Indices Nodes 





CN 国 Nodes mdices:ss Mermory: 44sMB/268 Total Shards:493 Unassigned Shards:247 Documents:7.096,435 Data:268 Uptime:2hours verslon' s.14 


Search Rate (/s) 9 SearchLatency (ms) 0 





CH ly wl | 


Indexing Rate (/s) @ IndexingLatency(ms) 0 


, | | | | | | | | | | | | | | | -www 


Tolalshards s6 A @Prmary shards 55h ndecrg Latercy O14 mes 


Shard Activity 


Index Stage Total Time Source $ Destnation Snapshot/ Repository Ales Byes Translog 


here are currently no active shard records for thls cluster, Try vewing shard history. 








在 上 图 中 可 以 看 到 ,Monitoring 的 用 户 界面 看 起 来 十 分 简洁 优雅 。 界 面 中 一 次 性 提供 
了 所 有 相关 信息 。 它 包含 三 个 选项 卡 , 即 总 览 (Overview) 、 索 引 (Indices) 和 节点 (Nodes)。 


9.5.1.1 了 解 总 览 选 项 卡 
总 览 选项 卡 是 打开 Elasticsearch 监控 模块 时 的 默认 选项 卡 。 在 选项 卡 的 名 称 下 面 ,给 出 
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了 重要 的 信息 ,例如 状态 .节点 数量 (Nodes) 和 索引 数量 (Indices) .占用 的 内 存 容量 (Memory)、 
分 片 总 数 (Total Shards)、 未 分 配 分 片 总 数 (Unassigned Shards)、 索引 中 的 文档 总 数 
(Documents) .用 于 存储 文档 的 磁盘 空间 使 用 量 (Data) 正常 运行 时 间 (Uptime) 和 Elasticsearch 
版 本 (Version)。 提 供 相关 信息 的 顶部 窗 格 在 总 览 、 索 引 和 节点 选项 卡 中 是 通用 的 。 

在 上 图 中 各 项 性 能 指标 的 下 面 ,有 一 些 很 好 看 的 图 表 , 它 们 展示 了 每 秒 的 搜索 速率 
(Search Rate) ,每 ms( 毫 秒 ) 的 搜索 延迟 (Search Latency) ,每 秒 的 索引 率 (Indexing Rate)、 
每 ms 的 索引 延迟 (Indexing Latency) 以 及 分 片 活 动 (Shard Activity)。 它 默认 给 出 了 过 去 
一 小 时 的 信息 。 我 们 可 以 更 改 查 看 数据 和 自动 刷新 页 面 的 设置 。 图 表 下 方 右 侧 的 显示 历史 
记录 (Show History) 按 钮 可 用 来 查看 分 片 处 理 记录 。 


9.5.1.2 了 解 索 引 选项 卡 


单 击 索 引 选 项 卡 后 ,会 看 到 以 下 界面 : 





p 攻 生 全 汪汪 | 
OM EY Nodess nices:ss Memory mma 268 Totalshards: 493 Unassigned Shards:247 Documents:7.098,599 Data:268 Uptime:2hours verson 51.1 
s 人 ead 
本 packetbeat-2016.12.22 加 40.8k 10.7MB 0/s 0/s 6 
ps topbeat:2017.01.01 四 100k 28.2MB 0/s 0/s 5 
eM topbeat-2016.12.26 四 295 295.2KB 0/s 0/s s 
topbeat:2016.12.22 四 148.3k 42.3MB 0/s 0/s 5 
topbeat-2016.12.21 四 568.8k 160.4MB 0/s 0/s 5 
topbeat-2016.12.20 四 108.6k 30.6MB 0/s 0/s 号 
topbeat:2016.12.19 四 10.1k 34MB 0/s 0/s Ei 
topbeat-2016.12.18 四 496.9k 135.8 MB 0/s 0/s 5 
school 四 274 190.3KB 0/s 0/s 5 
sales 四 2.4k 1.3MB 0/s 0/s 5 
packetbeat-2017.01.01 四 20.2k 6.7MB 0/s 0/s 3 
packetbeat-2016.12.29 四 113.6k 35.8MB 0/s 0/s 3 
packetbeat-2016.12.28 四 25.2k 8.5MB 0/s 0/s 5 
packetbeat-2016.12.26 四 Sy7 647.6KB 0/s 0 /s 5 
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如 上 图 所 示 ,我 们 获取 了 存储 在 集群 中 的 各 种 索引 信息 。 它 展示 了 各 种 信息 ,如 索引 名 
称 Name、 每 个 索引 中 的 文档 总 数 (Documents) ,存储 文件 占用 的 磁盘 空间 (Data) .每 秒 的 索 
引 速 率 (Indexing Rate) 每 秒 的 搜索 速率 (Search Rate) 和 每 个 索引 中 未 分 配 的 分 片 数 
(Unassigned Shards) ,还 可 以 搜索 索引 或 按 名 称 过 滤 索 引 , 以 及 选中 “显示 系统 索引 ”(Show 
system indices) 复 选 框 来 查看 系统 创建 的 索引 ;甚至 可 以 单 击 索引 名 称 来 查看 每 个 索引 的 
详细 信息 。 将 会 获得 一 系列 统计 信息 ,如 图 所 示 : 


区 Clusters / elasticsearch / Elasticsearch / ndices / .monktoring-es-2-2017.01.01 MW 10seconds 
CY overview Advanced 











@ 四 ”pocumenes: ssk Data:33.1 Me Totalshards:2 Unassigned Shards: 1 
Index Memory (KB) Index Size (MB) 0 
A 3 | | 
Se WYYWYYYYA NYY WW 、 i 
lucene Total 4748 KB @Terms1140@ Ponts 121.8KB bE index Size 329MB 
Search Rate (/s) 0 Indexing Rate (/s) 0 
, A HH [| | | 
' nn 
Totalshards 19 otalshards 554 mmany shards 54 
Segment Count @ DocumentCount 0 
Pimares 1 er Documert Cam Sask 
Shard Legend 
国 Prmary 国 paplca3 图 Felocating 国 nalzng 国 UrassigredPrmary 图 Unassgned Replcs 
区 国 Unasslgned Nodes 
og [se | 








在 上 图 中 ,可 以 查看 顶部 窗 格 中 的 信息 ,例如 索引 的 状态 、. 索 引 中 的 文档 总 数 
(Documents) 用 于 存储 文档 的 磁盘 空间 (Data) 、 分 片 总 数 (Total Shards) 和 未 分 配 的 分 片 
数量 (Unassigned Shards)。 下 面 我 们 查看 以 KB 为 单位 的 索引 所 占 内 存 容 量 (Index 
Memory) 每 秒 的 搜索 速率 (Search Rate) ,每 秒 的 索引 率 (Indexing Rate) .索引 大 小 (Index 
Size) ,文档 总 数 (Document Count) 和 分 段 总 数 (Segment Count) 等 可 视 化 内 容 。 此 外 ,还 可 
以 看 到 节点 的 名 称 和 节点 间 的 分 片 状态 。 

单 击 Advanced 高 级 选项 卡 来 获取 特定 索引 的 详细 信息 ,将 看 到 如 下 图 所 示 的 统计 
信息 : 
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在 上 图 中 ,可 以 查看 顶部 窗 格 中 的 信息 :例如 索引 的 状态 .索引 中 的 文档 总 数 
(Documents) ,用 于 存储 文档 的 磁盘 空间 (Data) 、 分 片 总 数 (Total Shards) 和 未 分 配 的 分 片 
数量 (Unassigned Shards)。 在 下 面 我 们 可 以 可 视 化 Lucene 的 索引 内 存 占用 量 (Index 
Memory of Lucene) ,每 KB 的 Elasticsearch 索引 内 存 占用 量 (Index Memory) ,请 求 速率 
(Request Rate) ,每 毫秒 的 请 求 时 间 (Request Time) ,每 毫秒 的 刷新 时 间 (Refresh Time) ,每 
毫秒 的 节 流 时 间 (Throttle Time) 和 每 MB 的 磁盘 使 用 量 (Disk) 和 分 段 总 数 (Segment 


Count) 。 
9.5.1.3 了 解 节点 选项 卡 
单 击 节点 选项 卡 后 ,会 看 到 以 下 界面 : 
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如 上 图 所 示 , 可 以 得 到 集群 中 各 种 节点 的 信息 。 它 为 我 们 提供 了 诸如 节点 名 称 、 节 点 状态 、 
CPU 使 用 情况 (CPU Usage, 每 个 节点 的 平均 、 最 小 和 最 大 使 用 量 )、JVM 内 存 (JVM Memory, 平 均 、 
最 小 和 最 大 使 用 量 ) 的 信息 ,平均 负载 (Load Average: 平 均 . 最 小 和 最 大 使 用 量 )、 磁 盘 可 用 空间 
(Disk Free Space, 平 均 ` 最 小 和 最 大 使 用 量 ) 以 及 每 个 节点 中 已 分 配 的 分 片 总 数 (Shards) 。 

可 以 单 击 节点 名 称 来 查看 每 个 节点 的 详细 信息 ,将 看 到 一 系列 统计 信息 ,如 下 图 所 示 。 
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在 该 图 中 ,可 以 查看 顶部 窗 格 中 的 信息 ,例如 节点 的 状态 .节点 的 主机 IP 地 址 JVM 堆 
占用 百分比 (JVM Heap) 可 用 磁盘 空间 (Free Disk Space) 文档 总 数 (Documents) 用 于 存 
储 文档 的 磁盘 空间 (Data) ,节点 中 的 索引 总 数 (Indices) ,分 片 的 总 数 (Shards) 和 节点 的 类 型 
(Type)。 下 面 我 们 可 以 可 视 化 查看 每 GB 的 JVM 堆 使 用 量 (JVM Heap)、 每 MB 的 索引 内 
存 占用 量 (Index Memory) 、CPU 利用 率 百分比 (CPU Utilization)、 系 统 平均 负载 (System 
Load) ,每 秒 延迟 (Latency) 和 索引 分 段 数 量 (Segment Count) 等 内 容 。 此 外 ,还 可 以 看 到 各 
种 索引 的 名 称 和 分 片 状态 。 

可 以 单 击 高 级 选项 卡 来 获取 特定 节点 的 详细 信息 ,将 看 到 如 下 屏幕 截图 所 示 的 统计 信息 : 
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在 上 图 中 ,可 以 查看 顶部 窗 格 中 的 信息 ,例如 节点 的 状态 .节点 的 主机 IP 地 址 JVM 堆 
占用 百分比 (JVM Heap) ,可 用 磁盘 空间 (Free Disk Space) 文档 总 数 (Documents) 用 于 存 
储 文档 的 磁盘 空间 (Data) ,节点 中 的 索引 总 数 (Indices) ,分 片 的 总 数 (Shards) 和 节点 的 类 型 
(Type)。 下 面 可 以 查看 GC 计数 (GC Count)?、 每 毫秒 的 GC 持续 时 间 (GC Duration) ,每 
GB 的 JVM 堆 占 用 大 小 (JVM Heap)、CPU 利用 率 百 分 比 (CPU Utilization)、Lucene 使 用 
的 索引 内 存 容量 (Index Memory used byLucene)、Elasticsearch 使 用 的 索引 内 存 容量 
(Index Memory used by Elasticsearch)、 每 毫秒 的 索引 时 间 (Indexing Time) .请求 速率 
(Request Rate) ,索引 和 读 取 线 程 数 (Indexing/ Read Threads) 。 


9.5.2 探索 Kibana 的 监控 统计 
在 方 框 中 单 击 Kibana 名 称 , 将 会 看 到 以 下 界面 : 
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在 上 图 中 可 以 看 到 ,Monitoring 的 界面 看 起 来 十 分 简洁 优雅 ,界面 中 一 次 性 提供 了 
所 有 相关 信息 。 在 顶部 窗 格 中 ,给 出 了 实例 的 状态 、 运 行 的 实例 总 数 (Instances) .请 求 
总 数 (Requests) ,总 连接 数 (Connections)、 最 大 响应 时 间 (Max Response Time) 和 内 存 使 
用 率 的 百分比 (Memory Usage) 。 在 这 些 性 能 指标 下 方 , 可 以 查看 监控 的 可 视 化 内 容 ， 
如 客户 端 请 求 (Client Requests) 和 每 毫秒 的 客户 端 啊 应 时 间 (Client Response Time, 最 
大 值 和 平均 值 ) 。 

单 击 实例 (Instances) 选 项 卡 来 获取 Kibana 实例 的 详细 信息 ,将 看 到 如 下 图 所 示 的 统计 
信息 : 


@ 译 者 注 : GC 指 Garbage Collection 。 
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在 上 图 中 ,可 以 查看 顶部 窗 格 中 的 信息 ,例如 实例 的 状态 有 运行 的 实例 总 数 
(Instance) ,请 求 总 数 (Requests)、 总 连接 数 (Connections)、 最 大 响应 时 间 (Max. 
Response Time) 和 内 存 使 用 百分比 (Memory Usage) 。 在 这 些 性 能 指标 下 方 可 以 查看 实 
例 的 详细 信息 ,例如 实例 名 称 (Name)、 实 例 状 态 (Status)、 实 例 占 用 的 总 内 存 容量 
(Memory Size) .平均 负载 (Load Average) 、 当 前 请 求 数 (Requests) 和 响应 时 间 (Response 
Time, 最 大 值 和 平均 值 ) 。 





9.6 了 和解 Profiler 


Profiler 是 X-Pack 插件 中 的 另 一 个 组 件 。 这 一 组 件 的 出 现 , 使 我 们 不 再 需要 了 解 一 
条 请 求 在 Elasticsearch 中 如 何 执行 。 它 提供 了 在 各 个 阶段 执行 请 求 的 详细 信息 ,这 些 信 
息 可 能 有 助 于 找到 一 些 请 求 执行 十 分 缓慢 的 原因 ,或 者 一 些 请 求 返回 结果 用 时 过 长 的 
原因 。 

Profile 是 X-Pack 插件 最 新 的 附加 功能 ,并 已 在 X-Pack 5. 1 版 本 中 加 入 。 它 是 Dev 
Tools 页 面 的 一 部 分 。 它 使 用 由 Elasticsearch 提供 的 Profile API。Profile API 用 于 调试 
请 求 中 的 各 种 信息 ,以 收集 请 求 的 提供 方式 以 及 收 到 的 结果 等 底层 详细 信息 。Profile 
API 的 返回 结果 信息 是 大 幅 的 JSON 数据 ,这 是 很 难 理解 的 。 因 此 ,Profiler 起 着 重要 
的 作用 ,可 以 提供 可 视 化 的 Profile API 返 回 结果 ,从 而 使 我 们 更 容易 理解 请 求 的 响应 ， 
并 调试 请 求 的 行为 。 使 用 Profiler, 从 请 求 到 返回 结果 . 均 可 了 解 查询 与 聚合 的 中 底层 
信息 。 

单 击 Dev Tools 选项 卡 , 然 后 单 击 控制 台 (Console) 右 侧 的 Profiler 选项 卡 ,可 查看 
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Profiler 的 界面 。 打 开 后 ,将 会 看 到 以 下 界面 : 


CW console Profiler 








“query":{ 
} “ratch_all™ : {} 


大 
© 
妇 


山 le 





如 上 图 所 示 , 可 以 在 请 求 窗 格 中 指定 索引 名 称 (Index) 、 类 型 名 称 (Type) 和 查询 。 单 击 
Profile 按钮 之 后 ,返回 结果 将 显示 在 右 侧 的 结果 窗 格 中 。 将 会 看 到 以 下 结果 界面 : 














Index: topbeat-2016.12.20 ”Cumulative Time: 20.193ms 
，[3Fqp-HA5SdKZTc6cksiigQj[2] [EE | 
，[3Fqp-HA5sdKZTc6cksiigQqlIT] [EEC 
> [BFqp-HA5SdKZTc6cksiigQl[o] Cm 到 
> [BFqp-HA5sdKZTc6cksiigQl[3] Cm 目 
，[3Fqp-HA5sdKZTc6cksiigQl[4] CC Som 目 

下 面 解释 返回 结果 的 含义 。 

它 显 示 其 搜索 过 的 索引 名 称 、 用 来 在 每 个 索引 中 搜索 的 分 片 以 及 通过 查询 获取 结果 所 


花费 的 时 间 。 





全 累积 时 间 是 每 个 时 间 片 的 总 和 , 它 可 以 表示 通过 查询 来 获取 结果 所 需 的 实际 物 
理 时 间 。 





要 查看 更 详细 的 信息 ,可 以 单 击 分 片 名 称 的 左 侧 , 并 将 光标 其 停 在 类 型 名 称 上 ,该 名 称 
将 提供 更 多 信息 ,如 下 图 所 示 。 
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它 将 显示 所 使 用 查询 的 类 型 ,以 及 Lucene Query 的 各 种 低级 别 请 求 的 描述 和 时 间 
划分 。 





人 要 了 解 更 多 关于 Timing 时 间 划 分 的 组 件 ,可 以 参考 以 下 链接 : 


https://www. elastic. co/guide/en/elasticsearch/reference/5. 1/_ profiling _ 


queries. html# timing_breakdown 





此 外 ,还 可 以 存储 从 响应 结果 生成 的 JSON 输出 信息 来 做 进一步 分 析 。 如 果 将 生成 的 
JSON 粘贴 到 Profiler 请 求 窗 格 , 它 将 解析 为 Profiler 分 析 结 果 而 不 是 查询 的 结果 ,并 将 相 
应 的 结果 进行 可 视 化 展示 。 


9.7 “本章 狼 结 


Elastic 团队 将 Elastic Stack 中 的 核心 组 件 和 支持 功能 分 别 置 于 X-Pack 插件 中 , X- 
Pack 插件 对 任何 组 织 而 言 都 是 重要 组 件 。 在 本 章 中 ,了 解 了 两 个 X-Pack 团队 成 员 : 
Security 和 Monitoring ,掌握 了 在 Elasticsearch 和 Kibana 中 安装 X-Pack 插件 的 方法 。 对 
于 Security 组 件 , 我 们 学 会 了 管理 用 户 、 角 色 和 权限 等 操作 ,而 Monitoring 组 件 则 帮助 我 们 
查看 了 Elasticsearch 和 Kibana 实例 实时 统计 信息 的 不 同 可 视 化 展示 。 

在 下 一 章 中 ,将 介绍 X-Pack 插件 的 其 他 组 件 : Alert、Graph 和 Reporting。 
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X-Pack 插件 中 的 Alerting .Graph 
和 Reporting 组 件 


安装 X-Pack 插件 时 ,包含 六 个 重要 组 件 , 它 们 全 部 随 插件 被 安装 在 系统 中 。 其 中 三 个 
组 件 是 Monitoring Security 和 Profiler, 已 经 在 前 面 的 章节 中 讨论 过 了 。 在 本 章 中 ,将 探讨 
其 他 组 件 , 了 解 它们 可 提供 什么 功能 ,并 了 解 它们 如 何 满足 我 们 的 需求 。 

在 本 章 中 ,将 介绍 以 下 部 分 : 

。 Alerting( 警 报 ) 和 Notification( 通 知 ) 组 件 ; 

。 Graph( 图 ) 组 件 ; 

。 Reporting( 报 告 ) 组 件 。 


10.1 Alerting 与 Notification 组 件 


每 个 组 织 都 需要 一 个 能 够 在 需要 时 发 出 警报 的 系统 。X-Pack 插件 的 这 个 组 件 为 我 们 
提供 了 灵活 性 ,可 以 根据 由 于 数据 更 改 而 触发 的 某 些 条 件 来 创建 警报 和 通知 。 由 于 有 实时 
警报 机 制 这 个 需求 ,因此 需要 这 款 名 为 Watcher 的 组 件 。 它 可 根据 指定 的 条 件 触发 某 些 操 
作 , 在 需要 时 能 随时 随地 创建 和 执行 操作 , 且 不 需要 在 整个 Elastic Stack 中 更 改 配置 。 如 果 
需要 更 加 细致 的 监控 ,可 以 使 用 适合 的 (Logstash)Filter 和 Output 插件 ,在 Logstash 配置 
文件 中 直接 指定 条 件 , 从 而 创建 这 些 警 报 。 但 是 ,每 次 创建 新 类 型 的 警报 时 ,都 需要 进行 适 
当 的 测试 才能 在 生产 环境 中 进行 实际 的 配置 。 与 其 在 现 有 设置 中 进行 更 改 , 不 如 随时 创建 
自己 的 规则 ,以 获取 警报 和 通知 。 可 以 根据 需要 ,跟踪 和 创建 任何 类 型 的 警报 。 

警报 (alert) 和 通知 Cnotification) 总 是 有 助 于 捕获 系统 出 现 的 任何 严重 错误 或 问题 。 部 
分 错误 情况 包括 但 不 限于 以 下 内 容 : 

。 监视 日 志 , 如 果 日 志 包 含 SEVERE FATAL 或 ERROR 的 消息 ,那么 可 通过 电子 邮件 

发 送 日 志 消 息 以 通知 系统 管理 员 。 
。 跟踪 各 种 参数 来 监视 系统 框架 ,如 内 存 使 用 情况 、 磁 盘 使 用 情况 等 。 创 建 警 报 并 打 
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开 一 个 JIRA 凭证 (ticket) ,可 发 送 内 存 或 磁盘 使 用 率 高 的 通知 ,此 时 需要 更 多 可 用 


的 磁盘 或 内 存 空 间 。 
。 跟踪 社交 媒体 帖子 或 推 文 以 及 指定 关键 字 。 当 帖子 或 推 文 数量 超过 预定 的 值 时 ,发 
送 警报 。 


。 根据 用 户 在 Elasticsearch 中 搜索 的 关键 字 创 建 提醒 ,以 便 用 户 可 以 随时 更 新 。 

安装 X-Pack 插件 之 后 ,Watcher 组 件 即 可 使 用 ,不 需要 单独 安装 。 然 而 ,目前 没有 可 用 
的 Watcher 用 户 界面 来 创建 警报 或 通知 ,所 有 可 用 的 功能 都 是 通过 为 Watcher 开放 的 API 
提供 的 。 

Watcher, 如 其 名 称 ,通过 “观察 "所 有 事物 .事件 和 规则 来 发 送 通知 。 使 用 其 API, 可 以 
创建 ,管理 ,测试 和 删除 这 些 watch。 每 个 创建 的 watch 可 提供 单个 警报 ,实际 上 它 可 以 触 
发 多 个 通知 并 发 送 到 多 个 系统 。 

让 我 们 从 宏观 角度 看 看 Watcher 所 需 的 基本 组 成 部 分 : 

。 Schedule: 调度 ,定义 如 何 触 发 watch。 

。 Query: 查询 ,指定 充当 起 点 的 查询 ,根据 这 样 的 查询 可 以 指定 条 件 。Watcher 完全 
支持 Lucene 和 Elasticsearch 查询 语言 ,因此 可 以 指定 任何 类 型 的 查询 。 
Conditions: 条 件 , 根 据 查 询 指 定 条 件 。 可 以 根据 生成 警报 的 需要 来 使 用 simple 条 
件 或 script 条 件 。 

Actions: 操作 ,在 满足 条 件 后 执行 操作 。 操 作 包 括 向 Slack 通道 发 送 通 知 ,使 用 电子 
邮件 发 送 警报 等 。 

简 而 言 之 ,Scheduler 在 正确 的 时 间 触 发 查询 。 该 查询 充当 条 件 的 输入 。 对 于 查询 来 
说 ,可 以 指定 多 个 条 件 。 一 旦 指定 了 条 件 , 就 通过 操作 来 定义 在 满足 条 件 时 要 执行 的 操作 。 

所 有 watch 的 完整 历史 记录 都 被 存储 在 单独 的 Elasticsearch 索引 中 ,用 于 指定 watch 
被 触发 的 时 间 .watch 的 查询 、 条 件 是 否 满足 以 及 基于 条 件 的 操作 。 

对 于 Watcher 这 样 一 款 作为 随 X-Pack 插件 安装 的 组 件 , 可 以 在 控制 台中 执行 以 下 命 
令 , 使 用 Watcher API 验证 Watcher 是 否 已 被 启用 : 


GET xpack/watcher/stats 


执行 上 述 命令 将 返回 如 下 响应 信息 : 





{ 
"watcher state": "started", 
"watch count": 0, 
"execution thread pool": { 
"queue size": 0, 


“max_size": 0 
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] 
"manually_stopped": false 
返回 的 信息 显示 ,Watcher 已 经 启动 ,但 watch_count 为 0, 因 为 没有 定义 watch。 
到 目前 为 止 ,我 们 已 经 了 解 到 ,可 以 创建 在 满足 条 件 时 执行 操作 的 watch。 查 询 搜 索 和 
条 件 检查 的 数据 也 称 为 watch 有 效 负载 (Payload) 。 
每 当 指定 触发 Schedule 时 , 它 都 会 将 查询 结果 加 载 到 watch 有 效 负 载 中 。 一 旦 数据 被 
加 载 到 watch 有 效 负载 中 ,就 会 创建 一 个 条 件 。 如 果 条 件 匹 配 , 则 触发 进一步 的 Watcher 
事件 。 此 外 ,在 执行 操作 之 前 ,可 以 执行 不 同类 型 的 变换 (可 选项 ) ,这 将 会 将 查询 的 所 有 结 
果 数 据 加 载 到 watch 有 效 负 载 中 。 可 以 使 用 变换 来 覆盖 watch 有 效 负载 并 加 载 数据 ,然后 
将 其 发 送 到 Actions。 变 换 可 以 在 watch 和 执行 的 操作 级 别 中 使 用 。 
在 学 习 Watcher 怎样 执行 任务 ,以 及 在 创建 Watcher 时 会 执行 那些 步 又 之 前 , 先 详细 
了 解 它 的 基本 框架 以 及 watch 的 结构 。 


1. 触发 器 
创建 watch 时 ,必须 指定 触发 器 (trigger) ,因为 它 会 告诉 watch 何 时 执行 以 及 多 长 时 间 
执行 一 次 。 每 当 创建 watch 时 ,触发 引擎 都 会 注册 一 个 触发 器 ,触发 引擎 会 对 触发 器 进行 评 
估 ,并 相应 地 运行 watch。 目 前 ,只 有 Schedule 中 基于 时 间 的 触发 器 是 可 用 的 。 
调度 触发 器 (schedule trigger) 根 据 提 到 的 日 期 或 watch 的 触发 频率 来 定义 watch 的 执 
行 时 间 。Watcher 支持 各 种 类 型 触发 器 的 调度 ,如 时 间 间 隔 、cron 表达 式 、 每 小 时 、 每 日 ,每 
周 .每 月 和 每 年 的 调度 。 
(1) 时 间 间 隔 
它 以 固定 的 时 间 间 隔 (interval) 触 发 watch, 按 照 每 个 指定 的 间隔 触发 watch。 可 以 以 
秒 、 分 钟 、 小 时 、 日 或 周 为 单位 定义 时 间 间 隔 ,默认 情况 下 的 单位 为 秒 。 
以 下 面 的 代码 为 例 : 
{ 
"trigger" :{ 
"schedule" : { 
"interval" : "lh" 
} 
} 
上 述 触 发 器 意味 着 ,一 旦 创建 watch, 每 小 时 将 执行 一 次 watch。 同 样 ,可 以 指定 10 分 
钟 或 10 秒 的 间隔 ,这 样 watch 将 每 隔 10 分 钟 或 10 秒 执行 一 次 。 这 里 的 时 间 单 位 支持 小 时 
(Ch) 分钟 (m) 、 秒 (s)、 日 (d) 和 周 (w)。 
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(2) cron 表达 式 

它 根据 指定 的 cron 表达 式 来 触发 watch。cron 表达 式 为 -一 seconds 二 二 minutes 二 
<hours 二 一 day_of month 盖 一 month 盖 一 day_of _ week 二 [year]。 在 这 里 ,year 是 可 选 的 ， 
其 余 的 字段 都 是 必 选 的 。 

cron 表达 式 的 每 个 字段 都 有 可 能 取 值 的 集合 ,如 下 表 所 示 : 














学 段 支持 的 特殊 字符 
秒 < 
分 钟 "六 
小 时 Cd A 
一 个 月 中 的 日 *? /LW 


月 1 一 12 或 JAN 一 DEC s/f 


八 有 关 特 殊 字 符 的 详细 信息 ,请 参阅 : 


https://www. elastic. co/guide/en/x-pack/5. 1/trigger-schedule. html # schedule- 





cron-elements 





以 下 是 对 cron 表达 式 的 解释 : 


cron 表达 式 


030xx%? 


解 释 
在 每 小 时 的 第 30 分 钟 触发 一 次 
仅 在 2017 年 中 每 小 时 的 第 30 分 钟 触发 一 次 


在 每 天 上 午 1:45 触发 一 次 
在 每 个 周一 下 午 2:30 触发 一 次 ,每 周一 次 


在 每 个 月 第 3 天 的 下 午 5:45 触发 一 次 
在 每 年 7 月 27 日 上 午 10:00 触发 一 次 


030x*x*x¥?2017 





0451xx? 
0 30 14 ? * MON 





045173 x* ? 





00102777?7 * 





以 下 面 的 代码 为 例 : 


{ 
本 二 生出 全 亲本 天 本 St 
"schedule" : { 


oron™ 3 ”0 30# 人 站 
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} 

} 

由 于 cron 表达 式 理解 起 来 有 一 些 难度 ,为 了 简化 ,还 有 其 他 调度 触发 器 ,可 以 在 每 小 
时 ,每 日 、 每 周 、 每 月 和 每 年 的 级 别 轻 松 地 指定 时 间 间 隔 。 

(3) 每 小 时 调度 

这 种 方式 在 每 小 时 的 特定 时 刻 触发 watch。 可 以 在 其 属性 中 指定 分 钟 的 值 ,该 分 钟 属 
性 可 以 每 隔 一 个 小 时 或 一 小 时 内 指定 的 分 钟 的 值 运 行 。 

以 下 面 的 代码 为 例 : 


{ 
"trigger" :{ 
"schedule" : { 
"hourly" : { "minute" : 45 } 


} 


} 
执行 时 ,将 在 每 小 时 的 第 45 分 钟 触发 watch: 


{ 。。。 "hourly" : { "minute" : [10,20,30,40] }} 
执行 时 ,将 在 每 小 时 的 第 10、20、30、40 分 钟 触发 watch。 
(4) 每 日 调度 


这 种 方式 每 天 在 固定 时 间 ,或 者 使 用 at 属性 以 及 小 时 和 分 钟 的 数组 来 触发 watch。 如 
果 没 有 指定 每 日 的 任何 属性 ,那么 默认 情况 下 , 它 将 在 午夜 运行 , 即 00:00。 每 天 可 以 对 其 
完成 一 次 或 多 次 调度 。 
以 下 面 的 代码 为 例 : 
L! 
"trigger" : { 
"schedule" : { 
“daldly" se tat” "18:30"} 
} 


} 
执行 时 ,每 天 下 午 6:30 将 触发 watch: 
{ .2 gaily" : { "at" : ["09:45", "18:30"] }} 


执行 时 ,将 在 上 午 9: 45 和 下 午 6: 30 触发 watch, 每 天 触发 两 次 。 
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bees dally™” se Tat s TL "hour® el O0221 minute™ e [L10551 3}1 


执行 时 ,将 在 上 午 12:10、 上 午 12:55、 上 午 8:10、 上 午 8:55、 下 午 10:10 和 下 午 10:55 
触发 watch。 
(5) 每 周 调度 
这 种 方式 在 固定 时 间 周 期 ,或 使 用 on 和 at 等 属性 触发 watch。 
以 下 面 的 代码 为 例 : 
{ 
"trigger" : { 
"schedule" : { 


"weekly" : { "on"” : "tuesday", "at" : "18:30" } 


} 
执行 时 ,将 在 每 个 星期 二 下 午 6:30 触发 watch。 


{... "weekly" : [{ "on" : "tuesday", "at" : "noon" },{ "on" : "thursday", "at": 

| 
执行 时 ,将 每 周 触发 两 次 watch, 即 周二 下 午 12:00 和 周 四 下 午 6:30。 

还 可 以 指定 一 个 数组 的 值 ,如 下 所 示 : 

{... "weekly" : { "on" : ["tuesday”, "thursday" ],"at" : ["noon", "18:30" ] }} 
执行 时 ,将 在 每 周二 和 周 四 的 中 午 12:00 和 下 午 6:30 触发 watch。 

(6) 每 月 调度 

这 种 方式 在 固定 时 间 , 或 使 用 on 和 at 等 属性 ,每 个 月 触发 watch。 

以 下 面 的 代码 为 例 : 


"trigger" : { 
"schedule" : { 
ay LE 和 性 汪 人 
} 
} 
} 


执行 时 ,将 于 每 月 15 日 的 上 午 10:00 触发 watch。 


{ ..."monthly" : [{ "on" : "5", at" : "midnight" },{ won" : "25", "at" : "18:30" }] } 
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执行 时 ,将 于 每 月 第 5 天 中 午 12:00 和 第 25 天 下 午 6:30 两 次 触发 watch。 
还 可 以 指定 如 下 所 示 的 数组 : 


0 
执行 时 ,将 在 每 个 月 的 第 5 和 25 日 的 中 午 12:00 和 下 午 6:30 触发 watch 。 

2. 输入 

Watcher 的 一 个 基本 功能 是 将 输入 数据 加 载 到 watch 有 效 负 载 中 执行 。 加 载 的 数据 可 
以 有 多 种 不 同 的 格式 ,例如 使 用 查询 或 将 静态 数据 加 载 到 watch 有 效 负载 中 等 。 

Watcher 支持 以 下 输入 方式 。 


1) 简单 输入 
简单 输入 (simple input) 将 静态 数据 加 载 到 watch 有 效 负载 中 以 供 执行 ,从 而 可 存储 静 


态 数据 ,这 些 数 据 将 成 为 下 一 步 执行 过 程 的 输入 。 可 以 将 静态 数据 定义 为 数值 型 字符 串 或 
object 型 数据 。 
以 下 面 的 代码 为 例 : 


“input"” : { 
"simple" : { 
"book" : "Mastering Elastic Stack", 


"year" : 2017, 


"author names" : { 
"author1l" : "Yuvraj", 
"author2" s "Ravi"; 

} 
} 
} 
2) 搜索 输入 


搜索 输入 (search input) 用 于 将 Elasticsearch 中 搜索 的 查询 结果 加 载 到 watch 有 效 
负载 中 以 执行 Watcher。 在 这 种 类 型 的 输入 中 ,可 以 通过 索引 名 称 来 指定 请 求 对 象 , 指 
定 索 引 类 型 (如 果 有 的 话 ) 和 搜索 请 求 的 正文 。 搜 索 输 入 完全 支持 Elasticsearch 的 查询 
语言 。 

以 下 面 的 代码 为 例 : 

“pte 3 压 

"search" : { 
"request" : { 
"indices" : ["1ogstash- *"], 


"types" : [ "records" ], 
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"body" : { 
"query”" : { "match all™" : {1}} 
} 


' 


在 这 个 例子 中 ,指定 了 包含 request. indices、request. types、request. body 等 属性 的 搜索 
输入 ,它们 分 别 用 于 指定 要 搜索 的 索引 、 类 型 和 文档 数据 。 
还 有 一 些 其 他 属性 ,如 下 所 示 : 
。 request. search_type: 指定 要 执行 搜索 的 类 型 ,默认 值 为 query_then_fetch。 
。 request. template: 指定 搜索 模板 的 正文 ,可 以 包含 静态 或 动态 的 数据 。 
。 extract: 从 搜索 请 求 的 结果 中 提取 特定 字段 ,并 将 其 作为 有 效 负载 来 加 载 。 如 果 搜 
索 查 询 提供 了 很 长 的 响应 , 则 可 以 使 用 extract 来 选择 必需 的 字段 。 
timeout: 指定 搜索 查询 响应 的 时 间 限 制 ,默认 值 为 30 秒 。 
。 request. indices_options. expand_wildcards: 将 索引 名 称 中 包含 的 通配符 扩展 为 带 
有 all、.none、open 或 closed 等 值 的 数据 。 
。 request. indices_options. ignore_unavailable: 指定 是 否 忽 略 当 前 不 可 用 的 索引 ,其 
值 为 true 或 false。 
。 request. indices_options. allow_no_indices: 指定 在 找 不 到 索引 时 是 否 允 许 搜索 ,其 
值 为 true 或 false。 
搜索 输入 是 Watcher 中 最 常见 的 输入 形式 ,可 于 定义 条 件 、 变 换 (transform) 或 操作 。 
为 了 了 解 如 何 使 用 搜索 的 结果 进行 进一步 评估 .我 们 来 看 看 访问 搜索 结果 的 各 种 方法 。 
了 解 如 何 访问 搜索 结果 十 分 重要 。 对 搜索 结果 的 访问 可 以 用 于 处 理 watch 有 效 负载 以 
执行 后 续 步 又 ,如 条 件 、 变 换 或 操作 。 
。 通过 指定 ctx. payload. hits 加 载 所 有 搜索 结果 。 
。 仅 使 用 ctx. payload. hits. total 加 载 搜索 结果 的 总 数 。 
。 使 用 从 零 开 始 的 数组 的 索引 来 加 载 特定 搜索 结果 中 的 值 。 要 访问 第 四 个 命中 的 值 ， 
请 使 用 ctx. payload. hits. hits. 3 。 
。 使 用 ctx. payload. hits. hits. 一 index 二 .fields. 一 fieldname 之 从 搜索 结果 加 载 特定 
字段 的 值 , 可 以 在 其 中 指定 从 零 开 始 的 数组 的 索引 ,并 指定 字段 名 来 提取 字段 值 。 
3) HTTP 协议 输入 
HTTP 协议 输入 (HTTP input) 使 用 HTTP 服务 终端 来 加 载 搜索 请 求 的 结果 ,并 保存 
到 watch 中 。 可 以 使 用 HTTP 输入 与 任何 开启 HTTP 监听 的 Web 服务 进行 交互 ,例如 查 
询 第 三 方 服务 .查询 外 部 Elasticsearch 群集 ,或 查询 Elasticsearch API。 
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还 有 一 些 其 他 属性 ,如 下 所 示 : 
"nput™ s { 
he 记 - 
"request":{ 
"host" 3 "localhost ", 
"port" : 9200, 
"path" : "/_search", 


"body" : "{"query" : { "match" : { "loglevel" :; "error"}}}" 


} 
调用 Elasticsearch API 的 示例 如 以 下 代码 所 示 : 
npt sf 
"http" : { 
"request" : { 

"host" : "localhost ", 

hort" "9200";, 

"path" : "/ nodes/stats", 


"params" : { 


"human" : "true" 


} 


params 将 以 适合 阅读 的 格式 返回 。 

要 了 解 如 何 使 用 HTTP 响应 的 结果 做 进一步 评估 ,我们 来 看 看 访问 搜索 结果 的 各 种 
方法 。 

了 解 如 何 访问 HTTP 响应 结果 非常 重要 ,可 以 将 其 用 于 处 理 watch 有 效 负 载 ,以 便 执 
行 后 续 的 步骤 ,如 条 件 .变换 或 操作 。 如 果 HTTP 的 响应 采用 JSON 或 YAML 格式 , 则 响 
应 将 加 载 到 watch 有 效 负载 中 ,否则 将 加 载 到 watch 有 效 负载 中 的 _value 字段 中 : 

。 通过 指定 ctx. payload. message 加 载 所 有 消息 数据 。 

。 通过 使 用 ctx. payload. _headers 从 响应 中 加 载 所 有 响应 头 。 

。 通过 指定 ctx. payload._status_code 加 载 所 有 HTTP 状态 码 。 

4) 链 式 输入 

链 式 输入 (chain input) 用 于 加 载 来 自 多 个 源 的 数据 或 结果 ,或 组 合 多 种 类 型 的 输入 ,如 
简单 ,搜索 或 HTTP 协议 等 输入 。 它 按 指定 的 顺序 进行 处 理 。 可 以 将 输入 获取 到 的 数据 无 
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颖 地 送 入 另 一 个 输入 中 ,然后 将 此 数据 由 Watcher 的 任何 一 部 分 执行 操作 。 这 样 ,第 一 个 
输入 的 输出 可 以 被 第 二 个 输入 使 用 ,以 此 类 推 。 
以 下 面 的 代码 为 例 : 


"input™"s 5 
"ehain® s{ 
"inputs" : [ 
ee 和 > 汪 


"simple" : { "field" : "loglevel" } 


"second" : { 
"search" : { 
"request" : { 
"indices" : [ "logstash"], 
"body"s "("query": { "match™s 
{"{{ctx.payload.first.field}}":"error"}}}" 


} 


3. 条 件 

了 解 Watcher 如 何 工作 是 很 重要 的 。 将 数据 加 载 到 watch 有 效 负载 后 ,利用 条 件 
condition 确定 要 捕获 的 内 容 以 便 发 送 警报 或 通知 。 当 符合 条 件 时 ,将 触发 相应 的 操作 。 

Watcher 支持 以 下 条 件 。 

1) 总 是 (always) 条 件 

该 条 件 始终 将 watch 条 件 设置 为 true, 即 始终 执行 watch 操作 ,除非 正在 使 用 基于 时 间 
的 throttling 来 限制 操作 的 执行 。 如果 不 指 定 任何 条 件 . 默 认 情 况 下 为 always 条 件 。 在 
always 条 件 中 ,没有 属性 可 以 指定 。 


@ 可 以 通过 对 操作 施加 一 定 的 限制 ,使 一 些 始终 执行 的 操作 因 受 限 而 有 选择 性 地 执行 .这样 的 调节 称 为 
throttling, 详 见 后 面 的 5. 操作 。 
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以 下 面 的 代码 为 例 : 


"condition" : { 
walways" : {} 
} 
2) 从 不 (never) 条 件 
该 条 件 始终 将 watch 状态 设置 为 false, 任 赁 动作 被 触发 , watch 的 操作 将 永远 不 会 被 执 
行 。 这 种 情况 主要 用 于 测试 watch 是 否 按 要 求 工 作 , 并 将 其 录入 到 watch 历史 记录 中 。 在 
neverQ 条 件 中 ,没有 属性 可 以 指定 。 
以 下 面 的 代码 为 例 : 
"oondition™” s { 
"never" : {} 
} 
3) 比较 (compare) 条 件 
比较 (compare) 条 件 对 输入 获得 的 结果 进行 基本 比较 。 它 可 比较 条 件 与 watch 有 效 负 
载 Payload 中 所 接收 的 结果 。 
支持 的 比较 运算 符 如 下 : 
。 eq: 如 果 结 果 值 与 给 定 值 匹配 , 则 返回 true( 对 数字 、 字 符 串 、 列 表 、 对 象 和 值 有 效 )。 
。 not_eq: 如 果 结 果 值 与 给 定 值 不 匹配 , 则 返回 true( 对 数字 、 字 符 串 列表、 对 象 和 值 
有 效 )。 
。 gt: 如 果 结 果 值 大 于 给 定 值 , 则 返回 true( 在 数字 和 字符 串 上 有 效 ) 。 
。 gte: 如 果 结 果 值 大 于 或 等 于 给 定 值 , 则 返回 true( 在 数字 和 字符 串 上 有 效 ) 。 
lt: 如 果 结 果 值 小 于 给 定 值 , 则 返回 true( 在 数字 和 字符 串 上 有 效 ) 。 
lte: 如 果 结 果 值 小 于 或 等 于 给 定 值 , 则 返回 true( 在 数字 和 字符 串 上 有 效 )。 
以 下 面 的 代码 为 例 : 


{ 
"condition™" : { 
"compare" : { 
"ctx.payload.hits.total" : { 
be 
} 


@ 译 者 注 : 此 处 的 原文 是 “always condition”, 通 过 查看 上 下 文 ,笔者 认为 此 处 存在 错误 ,将 其 视 为 “never 
condition" 进 行 翻译 。 
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} 


在 上 面 的 例子 中 ,执行 的 是 比较 已 经 加 载 到 watch 有 效 负载 中 的 一 个 字段 的 结果 ,以 及 
指定 加 载 的 结果 中 的 条 件 , 找 到 存储 在 有 效 负载 中 的 记录 的 总 计数 ,并 判断 该 计数 是 否 小 于 
10。 如 果 小 于 10, 则 条 件 将 为 true, 操 作 将 被 触发 。 

此 外 ,还 可 以 使 用 日 期 -数学 表达 式 , 甚 至 比较 两 个 字段 的 值 。 

日 期 -数学 表达 式 的 示例 如 下 所 示 : 


{ 
"condition™" : { 
"compare" : { 
"ctx.payload.hits.hits.2.fields.datetime" : { 
"gte" : "<{now-1h}>" 
} 


} 


在 上 面 的 例子 中 ,执行 的 是 比较 已 经 加 载 到 watch 有 效 负载 中 的 一 个 字段 的 结果 ,以 及 
指定 加 载 结果 中 的 条 件 ,查找 第 三 条 记录 ,并 检查 过 去 一 小 时 内 发 生 的 字段 (datetime) 
的 值 。 

4) 数组 (array) 比 较 条 件 

数组 (array) 比较 条 件 用 于 在 输入 获得 的 结果 中 对 数组 进行 基本 比较 。 它 的 基本 结构 
包括 数组 .字段 的 路 径 ( 可 选 ) .比较 运算 符 以 及 与 之 比较 的 值 。 

以 下 面 的 代码 为 例 : 


{ 
"condition": { 
"array compare": { 
"ctx.payload.aggregations.twitter.buckets" : { 
"path": "doc count", 
Mgte”s: 
"value": 1000, 
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在 上 面 的 例子 中 ,已 经 指定 了 数组 ,并 且 还 指定 了 一 个 bucket 的 路 径 。 当 bucket 的 文 
档 数量 大 于 或 等 于 1000 的 时 候 ,条 件 设置 为 true。 

5) 脚本 (script) 条 件 

脚本 (script) 条 件 用 于 验证 基于 脚本 的 watch 条 件 ,其 中 的 脚本 决定 了 操作 是 否 执 行 。 
可 以 使 用 Elasticsearch 支持 的 脚本 语言 ,默认 使 用 的 脚本 语言 是 Groovy。 





全 要 使 用 Groovy 作为 脚本 语言 ,需要 在 elasticsearch. yml 中 启用 动态 脚本 。 要 启 
用 Groovy 中 的 watch, 请 设置 以 下 属性 : 
script.engine.groovy.inline.xpack watch: true 


此 外 , 随 着 Elastic Stack 的 推出 ,出 现 了 一 种 名 为 Painless 的 新 型 基本 脚本 语 
言 ,这 种 脚本 的 使 用 无 须 启 用 动态 脚本 。 








和 却 本 条 件 的 一 个 例子 如 下 : 


"condition™" : { 
"script" : "return false" 


} 


这 是 一 个 简单 的 条 件 , 总 是 返回 false。 
与 脚本 条 件 相关 联 的 几 个 属性 有 : 
。 脚本 类 型 (script type) : 指定 要 使 用 的 脚本 类 型 (支持 的 脚本 : inline,file 和 stored) 
。 脚本 语言 (scripting language): 指定 要 使 用 的 脚本 语言 (支持 的 语言 : Groovy、 
JavaScript Python\Painless .Expression、Mustache 和 Java) 。 
。 参数 值 (parameter values) : 指定 参数 (如 果 有 的 话 )。 
(1) Inline 脚本 
在 这 种 类 型 的 脚本 中 ,可 以 在 条 件 本 身 内 部 直接 定义 脚本 。 
以 下 面 的 代码 为 例 : 
"condition" : { 
"script" : { 
"inline" : "return ctx.payload.hits.total >threshold", 
"lang" : "painless", 
"params" : { 
"threshold" : 5 
} 
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在 上 例 中 ,使 用 脚本 条 件 来 检查 总 结果 数 是 否 大 于 定义 的 阔 值 参数 。 

(2) file 脚本 

在 这 种 类 型 的 脚本 中 ,可 以 定义 文件 中 存在 的 脚本 。 脚 本 应 存储 在 $ES_HOME/ 
config/scripts 目录 中 。 

以 下 面 的 代码 为 例 : 


"condition" : { 
"script" £4 
"file" : "watcher script", 


"lang" : "python", 


} 

在 上 面 的 例子 中 ,参考 watcher_script. py(watcher_script 是 文件 的 名 称 , 其 后 的 . py 是 
Python 语言 的 扩展 名 ) 文 件 来 检查 条 件 。 

(3) Stored 脚本 

这 种 类 型 的 脚本 指 的 是 已 经 存储 在 Elasticsearch 中 的 脚本 。 以 下 面 的 代码 为 例 ， 


ncondGitions : { 
人 
"id" : "test script ", 
} 
} 


在 本 章 的 前 面部 分 ,已 经 看 到 了 如 何 访 问 一 个 搜索 / HTTP 返回 的 结果 。 在 Watcher 
上 下 文中 ,可 以 访问 更 多 变量 ,如 下 所 示 : 

。 ctx. watch_id: 访问 正在 执行 的 watch 的 ID。 

。 ctx. execution_time: watch 启动 的 执行 时 间 。 

。 ctx. trigger. triggered_time: watch 触发 的 时 间 。 

。 ctx. trigger. scheduled_time: watch 预计 触发 的 预定 时 间 。 

。 ctx. metadata. * : 如 果 关 联 , 则 访问 元 数据 记录 。 

。 ctx. payload. * : 访问 watch 加 载 的 有 效 负载 数据 。 


4. 变换 

变换 (transform) 是 一 个 可 选 的 项 目 , 可 以 在 创建 watch 时 进行 定义 。 其 目的 是 在 触发 
动作 之 前 更 新 由 watch 有 效 负 载 所 加 载 的 数据 。 在 触发 了 使 用 输入 和 条 件 将 数据 加 载 到 有 
效 负载 的 watch 之 后 ,和 在 触发 操作 之 前 .我 们 可 以 使 用 变换 来 更 改 watch 有 效 负载 中 的 数 
据 。 由 于 变换 是 可 选 的 ,如 果 不 定义 它们 : 则 加 载 到 watch 有 效 负载 中 的 数据 将 被 用 于 执行 
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操作 。 变 换 可 以 定义 为 顶级 字段 或 用 于 操作 中 。 如 果 用 到 的 变换 将 要 使 用 相同 的 有 效 负载 
payload, 则 使 用 变换 作为 顶级 字段 。 如 果 变 换 需 要 不 同 的 有 效 负载 payload 的 结果 , 则 应 在 
操作 定义 中 使 用 变换 。 

下 面 介绍 一 些 Watcher 支持 的 变换 。 

1) 搜索 变换 

在 这 种 变换 中 ,将 执行 搜索 查询 ,搜索 查询 的 结果 将 替换 当前 watch 有 效 负 载 中 的 数 
据 。 其 使 用 方法 与 搜索 输入 及 其 属性 相同 。 

以 下 面 的 代码 为 例 : 


.Eranbfornm™ st{ 


"search" : { 


"request" : { 
"indices" : [ "1ogstash- *"], 
"types" : [ "records" ], 
"body" : { 
"query" : { "match all" : {}} 
} 
} 
} 
} 
2) 脚本 变换 


在 这 种 变换 中 , 它 将 执行 脚本 ,脚本 执行 的 结果 将 蔡 换 当前 watch 有 效 负载 中 的 数据 。 
它 的 使 用 方法 与 脚本 输入 及 其 属性 相同 。 

以 下 面 的 代码 为 例 : 

{ 


"transform" : { 


"script" : "return [time : ctx.watch id ] " 


} 

3) 链 式 变换 

在 这 种 变换 中 , 它 将 按照 已 指定 的 顺序 执行 变换 ,并 且 所 应 用 变换 的 结果 将 替换 当前 
watch 有 效 负载 中 的 数据 。 它 用 于 构建 包含 搜索 和 脚本 转换 的 复杂 变换 。 其 使 用 方法 与 链 
式 输入 及 其 属性 相同 。 

以 下 面 的 代码 为 例 : 


"transform" : { 
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"ohaan™ gs 
{ 
"search" : { 
"request" : { 
"body"”:{ "query” : { "match all" : {} }} 
} 


"script" : "return [ doc count: ctx.payload.hits.total ]" 


} 


5. 操作 

操作 (action) 是 创建 watch 时 定义 的 最 后 一 个 重要 的 部 分 。 它 用 于 对 数据 执行 操作 ， 
例如 记录 数据 ,将 数据 存 人 索引 ,以 及 向 e-mail、hipchat 或 slack 发 送 警 报 和 通知 等 。 只 有 
在 满足 watch 的 条 件 时 才 会 执行 操作 。 单 个 watch 可 以 包含 多 个 动作 ,动作 中 甚至 可 以 包 
含 变换 。 所 有 动作 按 指定 顺序 逐个 执行 。 如 果 执 行动 作 失 败 , 则 相关 的 信息 会 存储 在 
watch 的 历史 记录 中 。 操 作 在 触发 器 中 不 是 必须 指定 的 。 

在 操作 中 ,有 一 个 throttling 的 概念 ,下面 我 们 来 了 解 它 的 用 法 。 

throttling 用 于 限制 watch 多 种 操作 的 执行 。 为 了 简单 地 理解 它 , 假 设 创建 了 一 个 
watch, 可 以 在 获得 的 推 文中 找到 watcher 一 词 的 数量 。watch 每 两 分 钟 触 发 一 次 ,并 在 过 
去 30 分 钟 内 搜索 “watcher”"。 当 watch 触发 并 发 现 *watcher” 的 时 候 , 若 条 件 为 真 , 它 就 会 
每 隔 两 分 钟 重复 发 送 相同 的 警报 ,这 将 多 次 触发 相同 的 操作 。 

为 了 解决 这 些 问 题 ,Watcher 支持 throttling: 基于 时 间 和 确认 的 throttling 。 

1) 基于 时 间 的 throttling 

在 这 种 类 型 的 throttling 中 ,可 以 定义 动作 中 的 throttling 周期 ,然后 将 始终 检查 在 
throttling 时 间 段 (当前 时 间 : throttling 周期 ) 中 是 否 已 执行 动作 。 当 一 个 操作 将 被 执行 
时 ,由 于 有 时 受到 throttling 的 限制 ,该 操作 可 能 最 终 不 会 执行 。 因 此 , Watcher 不 会 每 隔 两 
分 钟 发 送 警报 ,而 是 依照 throttling 的 设置 每 隔 15 分 钟 发 送 警报 。 可 以 使 用 操作 定义 中 的 
throttle_period 关键 字 来 定义 这 个 时 间 间 隔 ,也 可 以 为 不 同 的 动作 设置 不 同 的 throttling 
时 间 。 

此 外 ,也 可 以 在 watch 的 级 别 定 义 throttle_period, 这 将 确保 按照 throttling 设置 的 时 
段 来 执行 操作 。 在 这 种 情况 下 ,不 同 的 操作 将 拥有 各 自 独 立 的 throttle_period。 不 能 为 不 
同 的 操作 设置 不 同 的 throttling 次 数 。 
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全 如 果 没 有 定义 throttle_period, 则 上 默认 设置 为 5 秒 。 可 以 在 elasticsearch. yml 中 
添加 以 下 属性 来 更 改 throttle_period 的 默认 值 : 





xpack.watcher.execution.default throttle period: 5m 





2) 基于 确认 的 throttling 

在 这 种 throttling 中 ,可 指定 条 件 来 多 次 限制 操作 的 执行 。 一 旦 条 件 被 判断 为 true, 那 
么 对 应 的 操作 将 始终 在 watch 运行 的 时 期 执行 ,或 按照 throttle_period 的 设置 来 执行 操作 。 
为 了 限制 这 种 操作 ,基于 确认 的 throttling 应 运 而 生 。 当 条 件 在 一 开始 设置 为 true 时 ,将 触 
发 操作 一 次 ;如 果 条 件 在 此 之 后 保持 为 true, 则 不 会 再 触发 操作 。 然 后 , 当 条 件 变 为 false 
时 , 它 将 再 次 触发 操作 。 当 watch 的 动作 被 确认 时 ,其 状态 改变 为 指定 的 状态 ; 当 条 件 判 断 
为 false 时 ,其 状态 变 为 awaits_successful_execution。 

要 确认 一 个 watch, 应 使 用 Ack Watch API。 可 以 像 下 面 的 命令 那样 使 用 API 来 确认 


操作 


POST xpack/watcher/watch/<id>/ ack/ 


在 这 里 ,一 id 之 是 watch 的 ID , 它 会 确认 所 有 的 操作 。 
要 确认 具体 操作 ,请 执行 以 下 命令 : 


POST xpack/watcher/watch/<id>/ ack/<action ids> 


Watcher 支持 以 下 操作 : 


E-mail: 通过 电子 邮件 发 送 警 报 或 通知 。 可 以 包含 纯 文 本 或 HTML 格式 的 文本 ,也 
可 以 在 发 送 电子 邮件 时 添加 附件 。Watcher 可 以 将 邮件 发 送 到 任何 支持 SMTP 服 
务 的 电子 邮箱 中 ,利用 Watcher 发 送 邮件 需要 在 elasticsearch. yml 文件 中 配置 电子 
邮件 。 

HipChat: 向 HipChat 用 户 或 房间 发 送 警 报 或 通知 。 需 要 在 elasticsearch. yml 文件 
中 配置 HipChat 账户 ,以 便 使 用 HipChat 发 送 消息 。 

Index: 为 Elasticsearch 中 的 新 数据 创建 索引 ,可 以 自 定义 警报 存储 索引 的 类 型 名 
称 。 在 Index 中 使 用 transform 时 ,对 _doc 有 效 负载 字段 有 一 个 关键 的 支持 。 当 
_doc 字段 存在 时 ,将 会 检查 它 是 否 包 含 object 或 数组 类 型 的 对 象 。 如 果 它 包含 一 个 
对 象 ,将 作为 单个 文档 创建 索引 ;如 果 存 在 一 个 对 象 数 组 , 则 将 每 个 对 象 视 为 一 个 
文档 。 

JIRA: 直接 利用 操作 在 JIRA 中 创建 问题 。 它 需要 在 elasticsearch. yml 文件 中 配置 
JIRA 账户 以 创建 JIRA 问题 。 

Logging: 将 数据 记录 到 Elasticsearch 日 志 中 。 它 主要 用 于 调试 或 将 警报 添加 到 日 
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志 中 ,以 便 被 管理 员 获 知 。 

PagerDuty: 在 PagerDuty 中 创建 事件 以 进行 正确 的 事件 解析 。 它 需要 在 
elasticsearch. yml 文件 中 配置 PagerDuty 账户 ,以 创建 PagerDuty 事件 。 

Slack: 向 Slack 用 户 或 团队 频道 发 送 警报 或 通知 。 它 需要 在 elasticsearch. yml 文件 
中 配置 Slack 账户 ,以 便 使 用 Slack 发 送 消息 。 

Webhook : 向 Web 服务 发 送 警报 或 通知 。 支 持 HTTP 和 HTTPS 的 连接 ,支持 在 
elasticsearch. yml 配置 文件 中 定义 用 户 名 和 密码 。 用 户 名 和 密码 以 纯 文 本 形式 存 
储 在 watches 索引 中 ,可 以 启用 X-Pack 安全 性 , Watcher 将 对 密码 进行 加 密 并 存 
储 。 还 可 以 使 用 基于 PKI 的 身份 验证 。 

我 们 来 看 几 个 使 用 操作 的 例子 。Index Action 的 示例 如 下 所 示 : 


vatdong™ sf 
"index payload" : { 
transtormms {ss } 
"index” tf 
"index" : "watcher", 
"doc type" : "watches", 
"execution time field" : "watch executed time", 


"timeout" : "30s" 


} 


在 上 面 的 例子 中 ,index_payload 是 操作 的 ID,transform 是 可 选 的 。 在 索引 操作 中 ,将 
索引 名 称 定义 为 watcher, 文 档 类 型 名 称 定义 为 watches, 其 中 将 会 存 人 数据 。 字 段 index 和 
doc_type 都 是 必须 指定 的 。 这 里 有 两 个 可 选 字段 , 即 execute_time_field 用 于 指定 
watch 存储 执行 时 间 的 字段 ;以 及 timeout 一 一 用 于 指定 因 在 规定 时 间 内 没有 收 到 响应 而 导 
臻 API 调用 失败 的 时 间 间 隔 。 上 默认 情况 下 ,超时 时 间 为 60 秒 。 

以 下 是 日 志 记 录 (logging) 操 作 的 示例 : 





"actions" : { 
"log": { 
WEranstorm™ 3 4 006 
"logging" :{ 
"text" : "triggered at {{ ctx.trigger.triggered time}}", 


"level" :; "info" 
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在 上 面 的 例子 中 ,log 是 操作 的 ID,transform 是 可 选 的 。 在 日 志 记录 操作 中 ,定义 要 记 
录 日 志 并 存 人 Elasticsearch 的 文本 。 文 本 字段 是 必须 指定 的 。 有 两 个 可 选 字段 , 即 用 于 指 
定 要 记录 文本 的 类 别 的 category 字段 ,以 及 用 于 指定 日 志 中 文本 日 志 记 录 级 别 的 level 字 
段 。 日 志 级 别 中 可 能 用 到 的 值 有 error、warninfo、debug 和 trace。 





要 了 解 Watcher 的 完整 示例 ,可 以 参考 第 12 章 案例 分 析 一 一 Meetup 中 的 获取 通 
知 部 分 。 











10.2 Graph 组 件 


Graph 组 件 是 X-Pack 插件 中 的 另 一 个 附加 功能 ,早期 作为 独立 组 件 来 使 用 ,也 称 为 
Graph。 它 只 是 将 完整 的 Graph 应 用 程序 添加 到 X-Pack 中 ,而 不 需要 单独 安装 。 这 是 一 个 
非常 强大 的 工具 , 旨 在 发 现 词 项 之 间 如 何 相 互 关 联 。 它 提供 了 一 种 简单 而 优雅 的 方式 来 发 
现 索 引 中 词 项 之 间 的 关联 以 及 它们 的 意义 。 

Graph 组 件 可 以 在 广泛 的 应 用 程序 (如 推荐 引擎 ) 中 发 现 多 个 领域 的 信息 以 及 它们 是 如 
何 相互 关联 的 ;展示 如 何在 社交 网 络 上 与 朋友 建立 联系 ;进行 网 站 分 析 , 包 括 漏洞 跟踪 .访问 
最 多 的 页 面 、 在 页 面 中 向 用 户 推 荐 等 。 

可 以 从 两 个 来 源 使 用 Graph, 即 使 用 Elasticsearch 提供 中 的 Graph Exploration API， 
或 使 用 Kibana 中 的 交互 式 Graph 可 视 化 工具 。Graph 的 最 大 优点 是 只 需要 对 它 进行 安装 ， 
它 不 会 对 Elasticsearch 索引 进行 任何 更 改 ,可 以 直接 发 现 数据 关联 而 不 会 存储 任何 其 他 数 
据 。 关 于 这 一 点 是 如 何 做 到 的 ,将 在 下 面 进行 介绍 。 

Graph 直接 出 自 图 论 , 它 创建 了 一 个 链接 型 结构 来 展示 多 个 对 象 之 间 的 关系 。 
Graph 可 以 被 看 作 是 发 现 对 象 之 间 关 系 的 大 型 网 络 。 在 图 论 中 ,有 节点 (node) 和 边 
(edge) 。 在 本 书 的 内 容 中 ,有 顶点 (vertice) 和 连接 (connection)。 顶 点 表示 多 个 术语 之 
间 的 联系 。 连 接 表 示 两 个 顶点 之 间 的 关系 ,以 及 它们 如 何 连 接 , 并 且 总 结 了 两 个 顶点 
中 的 文档 信息 。 

在 Elasticsearch 中 ,Graph 能 够 做 到 开 箱 即 用 ,其 中 的 顶点 引用 索引 中 的 词 项 ,其 连接 
利用 强大 的 Elasticsearch 聚合 来 实时 创建 。 此 外 .使 用 Elasticsearch 的 scoring 功能 ,可 以 
发 现 连接 及 其 相关 性 。Graph 组 件 能 够 获取 解决 困难 问题 的 方案 ,获取 的 过 程 需要 多 个 连 
接 。Graph 使 用 了 Elasticsearch 聚合 框架 ,能 够 快速 总 结 数 百 万 个 文档 。 它 能 够 获取 使 用 
文档 计数 的 词 项 间 的 关系 和 连接 。Graph 使 用 多 值 字 段 或 多 个 单 值 的 字段 ,并 在 其 上 创建 
连接 。 

在 一 个 简单 的 场景 中 ,有 两 个 顶点 ( 词 项 ) 和 它们 之 间 的 连接 。 单 击 连接 后 ,可 了 解 词 项 
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1 出 现 的 文档 数量 、 词 项 2 出 现 的 文档 数量 ,以 及 同时 包含 词 项 1 和 词 项 2 的 文档 数量 。 这 
种 总 结 用 于 建立 多 个 顶点 之 间 的 关系 。 

下 面 将 了 解 在 Kibana 中 ,作为 X-Pack 组 件 之 一 的 Graph 的 用 户 界面 。 

要 查看 Graph UI, 可 以 单 击 Kibana 左 侧 窗 格 中 的 Graph 选项 卡 。 单 击 后 ,将 看 到 以 下 
界面 : 








New Sim Open Deiele Soungs 











在 上 图 中 ,可 以 看 到 这 个 界面 十 分 简单 ,其 中 有 一 个 包含 各 种 选项 的 下 拉 列 表 、 带 有 搜 
索 栏 的 字段 添加 按钮 ,以 及 工具 栏 中 的 选项 /设置 。 第 一 次 看 到 这 个 界面 时 ,会 感觉 它 很 容 
易 使 用 。 没 错 , 你 的 感觉 很 对 。 下 拉 列 表 用 于 选择 索引 名 称 或 索引 模式 。 下 面 的 加 号 (十 ) 
用 于 选择 要 获取 连接 的 字段 。 搜 索 栏 用 于 输入 查询 的 词 项 。 工具 栏 中 的 操作 依次 为 新 建 、 
保存 、 打 开 、 删 除 和 设置 。 

让 我 们 借助 一 个 例子 来 更 清晰 地 了 解 Graph U1。 创建 一 个 包含 多 字段 的 虚拟 电子 商 
务 订 单数 据 索 引 。 下 面 要 找 出 这 些 国家 和 城市 最 流行 使 用 哪 种 支付 方式 ,以 及 这 样 的 网 络 
中 相互 连接 的 人 名 之 间 存 在 何 种 关系 。 

要 加 载 示例 数据 ,请 执行 以 下 命令 : 


bin/logstash -£ sales.conf 


命令 中 指定 的 sales. conf 文件 包含 Elasticsearch 输出 中 的 两 个 附加 参数 , 即 用 于 连接 
Elasticsearch 集群 的 用 户 和 和 密码。 还 可 以 额外 创建 用 Logstash 发 送 数 据 的 用 户 和 角色 。 
Logstash 的 特定 角色 将 需要 manage_index_templates 和 群集 监视 特权 ,以 及 对 Logstash 
索引 的 write、delete 和 create_index 特权 。 上 默认 情况 下 ,可 以 使 用 elastic 账户 登录 。 
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傅 可 以 在 如 下 Github 页 面 上 找到 上 述 配 置 文件 
https://github. com/kravigupta/mastering-elastic-stack-code files/tree/5. 1. 1 
/Chapterl0 








将 数据 加 载 到 Elasticsearch 后 , 转 到 Kibana UI 中 的 Management 选项 卡 , 然 后 单 击 
Index Pattern ,将 索引 名 称 添加 为 sales_data, 选 择 @timestamp 作为 时 间 字 段 。 





全 这 些 用 到 的 数据 源 自 一 个 公开 的 数据 集 ,可 以 访问 如 下 链接 获取 : 


https: //support. spatialkey. com/spatialkey-sample-csv-data/ 





在 将 索引 名 称 指定 为 sales_data 时 , 单 击 加 号 (十 ) 将 字段 名 称 作 为 payment_type. 
keyword ,并 搜索 Visa, 得 到 如 下 结 


New Graph Workspace New Save Open Osleis Setmngs 


sales_data J@+ [a 
B90900000 














在 上 图 中 可 以 看 到 ,没有 给 出 任何 有 意义 的 信息 ,因为 指定 单个 字段 ,这 样 的 搜索 结果 
不 会 显示 多 个 字段 或 值 之 间 的 任何 关联 。 要 查看 数据 间 的 关系 ,应 在 选择 payment_type. 
keyword 的 同时 逐个 选择 多 个 字段 ,如 country. keyword city. keyword 和 name. keyword 。 
选择 一 个 字段 后 ,会 看 到 字段 的 一 些 选项 ,例如 颜色 .字段 图 标 和 每 词 查询 显示 结果 的 最 大 
数量 ,也 就 是 每 个 搜索 字段 将 返回 的 最 大 数量 。 

在 搜索 栏 中 ,指定 Visa, 希 望 看 到 使 用 Visa 付款 的 人 与 其 所 在 国家 和 城市 之 间 的 关联 。 
单 击 搜索 (Search) 后 ,将 获得 以 下 图 表 : 
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在 上 图 中 ,可 以 看 到 各 种 连接 。 两 个 顶点 之 间 的 连接 越 强 , 其 连接 线 越 暗 , 如 Calgary 
到 Canada 的 连接 线 。 可 单 击 任何 一 条 连接 线 来 了 解 两 个 顶点 是 如 何 相 互 关联 的 。 

例如 , 单 击 Calgary 和 Canada 之 间 的 连接 线 ,观察 到 有 76 个 文档 包含 词 项 Canada,11 
个 文档 包含 词 项 Calgary,11 个 文档 同时 包含 Canada 和 Calgary 两 个 词 项 。 图 中 描绘 了 它 
们 的 关系 ,如 下 图 所 示 : 





回 cagan canada 


11 (11) 76 





在 继续 操作 之 前 ,让 我 们 详细 了 解 Selections 对 话 框 。 这 个 对 话 框 如 下 图 所 示 : 
日 晶 站 BDDBOo 


select 


@ Ey Ey CH 


No selections, Click on vertices to add 











Selections 对 话 框 包含 两 组 选项 . 即 设置 (settings) 和 选项 (selections) 。 
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设置 中 提供 了 多 种 选项 ,用 于 指定 相关 的 设置 项 ,从 左 到 右 依 次 为 撤销 、 重 做 .展开 选 
项 在 现 有 词 项 之 间 添 加 连接 、 从 工作 区 (workspace) 中 删除 项 点、 黑 名 单 选项 、 自 定义 选 定 
的 顶点 样式 .向 下 钻 取 ( 获 取 更 深层 数据 ) 和 和 暂停 布局 。 

执行 从 工作 区 中 删除 顶点 的 操作 ,将 删除 工作 区 中 不 需要 的 顶点 。 只 需 选 择 不 需要 的 
顶点 ,然后 单 击 删除 (看 起 来 像 垃圾 /回收 站 ) 按 钮 。 

可 以 将 选项 列 人 黑 名 单 ,这样 在 对 搜索 关键 字 进 行 更 改 或 其 他 操作 之 后 ,顶点 将 无 法 再 
回 到 工作 区 。 为 此 ,选择 顶点 并 单 击 blocking( 看 起 来 像 对 操作 的 拦截 ) 按 钮 。 

自 定 义 选 定 顶 点 的 样式 用 于 更 改 顶 点 所 在 圆 形 的 颜色 。 

向 下 钻 取 用 于 查看 可 视 化 背后 的 原始 文档 。 




















伟 如 果 使 用 sales_data 的 样本 数据 ,请 确保 时 间 过 滤器 设置 为 过 去 10 年 或 与 之 等 


效 的 时 间 设 置 ,设置 的 时 间 段 必须 包含 2009 年 。 





选项 中 提供 了 四 种 选择 方式 , 即 all .none ,invert 或 linked。 其 中 all 用 于 选择 所 有 词 
项 ,none 用 于 选择 零 个 词 项 ,invert 是 选择 当前 未 选择 的 所 有 词 项 ,linked 是 仅 选择 通过 连 
接 彼此 相连 的 词 项 。 

单 击 任意 一 个 词 项 之 后 ,该 词 项 将 显示 在 Selection 对 话 框 中 。 单 击 United Kindom , 可 
以 设置 更 改 United Kindom 的 显示 名 称 。 把 它 重 命名 为 UK ,此 时 它 在 Graph 中 的 显示 名 
称 也 随 之 相应 改变 。 

在 Graph 中 ,可 看 到 与 Mastercard 相关 的 联系 ,就 像 看 到 Visa 一 样 。 要 做 到 这 一 点 ， 
只 需 选 择 Mastercard 顶点 ,然后 单 击 扩展 选择 符号 ,将 展开 其 结果 ,并 显示 下 图 : 


New Save Open Delele Sertngs 


[>Jel:l\l:]eL TI") 














默认 





[A New Graph Workspace New Save Open Delete Settngs 
a 


URI 
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人 @@ 由 于 规定 了 每 次 查询 结果 的 最 大 数量 为 5, 所 以 选择 Mastercard 后 ,得 到 了 5 个 
结果 。 











在 Graph 工具 栏 中 有 几 个 选项 ,例如 创建 新 工作 区 、 保 存 工作 区 、 打 开 已 保存 的 工作 
区 、 删 除 当 前 保存 的 工作 区 以 及 设置 选项 。 

在 设置 选项 中 ,可 以 看 到 四 个 子 选项 ,包括 最 近 的 请 求 (Last Request)、 黑 名 单 
(Blacklist) ,高 级 设置 (Advanced Settings) 和 向 下 销 取 记录 (Drill-downs)。 单 击 设置 选项 ， 
情况 下 会 打开 高 级 设置 ,其 中 提供 了 以 下 设置 ,如 下 图 所 示 。 


lastrequest Blacklst Advancedsetungs 。 Drll-downs 


Samplesize 














在 最 近 的 请 求 选 项 中 ,可 看 到 发 送 到 Elasticsearch 来 获得 数据 关联 的 最 后 一 个 请 求 。 
在 黑 名 单 选项 中 ,可 看 到 已 经 列 和 人 黑 名 单 的 词 项 在 当前 Graph 工作 区 中 的 重 现 。 
在 向 下 钻 取 选 项 中 ,可 以 指定 源 代 码 以 及 获取 在 单 击 向 下 钻 取 选 项 时 显示 原始 文档 的 


…。 可 以 指定 或 更 改 向 下 钻 取 选项 的 标题 和 工具 栏 图 标 。 


10.3 Reporting 组 件 


其 中 


Reporting 组 件 是 Kibana 最 后 一 个 重要 的 附加 功能 。 它 提供 了 最 受 欢 迎 的 报告 功能 ， 
包含 可 用 于 外 部 的 面板 、 可 视 化 内 容 和 搜索 结果 ,或 者 在 演示 文稿 中 添加 报告 等 。 


Reporting 使 用 PhantomJS 从 图 像 创建 报告 并 以 PDF 的 形式 适当 拼接 , 带 来 了 这 项 期 待 已 
久 的 功能 。 


要 生成 报告 ,可 在 Discover、Visualize 和 Dashboard 页 面 中 的 工具 栏 中 选择 Reporting 
。 单 击 这 一 选项 ,然后 单 击 生成 可 打印 的 PDF(Generate Printable PDF) 按 钮 或 单 击 生 


成 URL(Generate URL) 按 钮 。 
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我 们 不 会 探讨 如 何 创建 可 视 化 内 容 / 面 板 并 保存 它们 。 相 反 ,我 们 将 看 到 如 何 生成 并 查 
看 报告 。 先 保存 面板 ,然后 单 击 报告 . 单 击 生 成 可 打印 的 PDF, 会 显示 如 下 消息 : 

Reporting: Dashboard generation has been queued. You can track its progress under 
Management. (Reporting: 要 生成 的 面板 已 在 队列 中 ,你 可 以 在 Management 界面 中 跟踪 
进度 。) 

要 下 载 /查看 报告 ,请 按照 下 列 步骤 操作 : 

(1) 单 击 Management 页 面 。 

(2) 选择 Kibana 页 面 中 的 Reporting。 

(3) 将 在 Generated Reports 中 看 到 文档 的 名 称 ,如 果 已 添加 到 队列 ,可 以 看 到 其 状态 和 
下 载 按钮 。 

(4) 查看 下 载 的 报告 如 下 图 所 示 。 








全 只 能 为 已 保存 的 对 象 生成 报告 。 

可 以 通过 以 下 方式 使 用 Kibana 开放 的 API 生成 报告 : 

。 已 保存 的 搜索 结果 的 Report: 
/api/reporting/generate/search/<savedsearch-id> 

。 已 保存 的 可 视 化 的 Report: 
/api/reporting/generate/visualization/< savedvisualization-id> 

。 已 保存 的 面板 的 Report: 
/api/reporting/generate/dashboard/ 一 saveddashboard-id 二 


人 要 使 用 API 生成 报告 ,需要 发 送 POST 请 求 而 不 是 GET 请 求 。 





也 可 以 使 用 _g 参数 指定 时 间 段 。 





例如 果 不 确定 设置 过 的 时 间 段 ,那么 只 需 从 已 保存 的 搜索 结果 、 可 视 化 内 容 和 面板 
URL 中 复制 _g 参数 。 











可 以 让 程序 使 用 API 自动 生成 Dashboard 报告 .使 用 以 下 curl 命令 : 


Curl -XPOST http://localhost:5601/api/reporting/generate/dashboard/ 


SampleDashboard - -user elastic:changeme -H "kbn- version:5.1.1" 
其 中 ,SampleDashboard 被 保存 在 面板 的 ID 中 ,出 于 安全 设置 ,user 被 用 来 指定 用 户 名 和 密 


码 ,-H 参数 需要 发 送 Kibana 的 版 本 ,在 我 们 的 例子 中 是 当前 的 版 本 号 5.1.1。 
要 下 载 报告 , 仍 需 遵 循 上 述 步骤 。 
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人 @ 要 生成 报告 ,有 些 用 户 可 能 需要 在 Ubuntu 系统 中 安装 其 他 依赖 项 。 如 果 报告 生 
成 失败 ,并 显示 “Phantom immediately exited with: 127”, 则 需要 执行 以 下 命令 安 
装 libfontconfig 和 libfreetype6 。 





sudo apt-get install libfontconfig 
sudo apt-get install libfreetype6 











10.4 ”本章 狼 结 


在 组 织 中 设置 Elastic Stack 组 件 时 ,X-Pack 插件 是 必 备 工具 。 利 用 它 可 以 掌握 所 有 基 
本 和 关键 的 信息 ,无论 是 用 户 管理 ,角色 和 权限 、 事 件 的 警报 、 生 成 报告 以 及 使 用 Graph 分 
析 数 据 ,还 是 监视 节点 和 索引 。 第 9、10 两 章 总 结 了 新 版 X-Pack 插件 及 其 组 件 的 功能 。 

在 下 一 章 中 ,将 了 解 最 佳 的 实践 范例 和 标准 ,并 在 工程 生产 环境 中 实际 应 用 。 
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在 前 一 章 中 ,讨论 了 Elastic Stack 的 一 部 分 一 一 X-Pack 插件 提供 的 各 种 组 件 , 详 细 探 
讨 了 每 个 组 件 ,涵盖 了 组 件 提供 的 内 容 以 及 各 种 功能 。 

如 果 一 直 在 跟 进 这 些 章节 ,就 可 能 有 很 多 问题 。 例 如 ,如 何 开始 或 继续 创建 可 扩展 的 系 
统 , 或 者 应 该 遵循 哪些 最 佳 范 例 来 创建 一 个 高 效 的 系统 。 

本 章 将 了 解 Elastic Stack 中 的 一 些 最 佳 实践 范例 ,以 便 在 学 习 他 人 的 经 验 后 ,能 够 用 于 
生产 环境 。 

在 本 章 中 ,将 介绍 以 下 主题 ， 

。 为 什么 需要 最 佳 实践 ? 

。 了解 你 的 使 用 案例 ; 

。 选择 正确 的 硬件 ; 

。 搜索 和 索引 性 能 ; 

。 调整 Elasticsearch 集群 ; 

。 Logstash 配置 文件 ; 

。 重新 索引 数据 。 


11.1 为 什么 需要 最 佳 买 践 范 倒 


开始 学 习 一 个 工具 时 ,我 们 总 是 尝试 在 独立 的 机 器 上 使 用 ,从 而 获得 专业 知识 ,并 可 以 
对 各 种 各 样 的 事情 进行 实验 。 当 我 们 将 小 范围 的 配置 放 在 多 个 大 型 系统 的 配置 上 时 ,可 能 
有 很 多 事情 会 阻碍 系统 提高 性 能 ,或 者 无 法 提供 在 一 个 小 型 配置 中 获得 的 最 佳 结果 。 为 了 
取得 最 佳 效果 ,我 们 需要 理解 和 遵循 其 他 规范 ,从 而 获得 更 高 的 性 能 和 更 少 的 麻烦 。 在 编程 
语言 方面 ,我 们 具有 最 佳 编码 实践 的 概念 , 它 描述 了 如 何 编写 易于 理解 ,维护 和 阅读 的 代码 ， 
如 果 其 他 人 开始 使 用 相同 或 相似 的 代码 , 则 可 以 减少 工作 量 。 但 是 ,在 工具 或 组 件 中 , 却 没 
有 最 佳 实践 中 的 死板 规定 。 最 佳 实践 取决 于 各 种 因素 ,如 架构 设计 、 使 用 的 组 件 、 底 层 硬 件 
等 ,还 取决 于 用 户 想 要 解决 的 使 用 案例 。 
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为 了 创建 可 以 轻松 扩展 和 维护 的 高 度 可 扩展 的 分 析 系 统 , 并 采用 最 佳 实践 策略 ,使 我 们 
可 以 处 理 面临 的 常见 瓶颈 ,最 佳 实践 就 变 得 十 分 必要 了 。 这 里 没有 让 你 盲目 学 习 的 具体 内 
容 ; 然 而 ,从 最 初 基于 许多 人 的 经 验 开始 , 它 提供 了 一 个 很 好 的 参考 。 它 可 以 帮助 你 了 解 应 
该 关注 的 领域 ,或 在 平台 中 应 该 微调 的 参数 。 

在 Elastic Stack 中 ,有 四 个 基本 组 件 : 

。 Beats: 数据 传输 工具 ; 

。 Logstash: 处 理 数 据 ; 

。 Elasticsearch: 存储 数据 ; 

。 Kibana: 数据 可 视 化 界面 。 

在 这 四 个 组 件 中 ,Elasticsearch 需要 深入 了 解 . 才 能 有 最 佳 实践 , 因 为 它 是 用 于 存储 数 
据 的 主要 组 件 ,并 作为 可 视 化 数据 的 数据 源 。 如 果 Elasticsearch 的 性 能 受 限 , 它 将 影响 整 
体 的 设置 。 作 为 基于 Web 的 用 户 界面 , Kibana 运行 所 需 的 资源 最 少 。Logstash 用 于 获取 
和 灵活 处 理 大 量 的 数据 。Beats 用 于 获取 数据 并 将 其 发 送 到 Elasticsearch 或 Logstash 的 轻 
量 级 数据 传输 工具 中 。 





11.2 了解 你 的 用 便 


这 是 所 有 人 在 考虑 最 佳 实践 或 使 用 Elastic Stack 之 前 应 该 了 解 的 基本 信息 。 如 果 在 了 
解 Elastic Stack 而 不 考虑 用 例 的 前 提 下 就 开始 连接 或 处 理 随机 数据 ,那么 将 无 法 根据 需要 
导出 正确 的 信息 ,将 会 一 直 遗 留 一 些 问 题 。 例 如 ,为 什么 选择 这 样 的 组 件 不 使 用 其 他 软件 或 
工具 ?因此 ,事先 了 解 用 例 是 非常 重要 的 。 

用 例 主要 涉及 要 使 用 的 组 件 、 流 入 日 志 数 据 的 关键 性 、 高 可 用 性 集群 需求 ,以 及 集中 式 
日 志 记 录 系 统 需 求 等 许多 问题 。 如 果 用 例 包括 分 析 应 用 程序 的 日 志 , 则 可 以 做 出 相应 的 决 
定 来 确定 是 否 需 要 单个 Elasticsearch 集群 .或 者 是 否 需 要 创建 集中 式 日 志 记 录 系 统 。 

开始 了 解 用 例 时 ,出 现 的 最 大 问题 就 是 系统 架构 应 该 是 什么 ”应 该 如 何 设计 架构 ? 或 
者 什么 工具 /组 件 应 该 是 它 的 一 部 分 ? 我 们 经 常 花费 大 量 时 间 弄 清楚 是 否 应 该 使 用 
Logstash 或 Beats。 一 个 常见 问题 是 使 用 Beats 会 增加 另 一 层 复 杂 度 ,并且 需 要 额外 的 知识 
来 开发 .调试 ,而 使 用 Logstash 需要 大 量 的 内 存 , 因 为 它 使 用 的 JVM 是 资源 密集 型 的 。 要 
了 解 系统 如 何 设计 ,这 是 需要 权衡 的 ,特别 是 在 已 经 使 用 输出 日 志 的 系统 的 情况 下 ;需要 使 
用 Elastic Stack ,同时 不 破坏 或 影响 系统 性 能 。 

如 果 从 许多 关键 的 服务 器 拉 取 日 志 , 当 它们 在 服务 器 上 托管 应 用 程序 时 ,最 好 使 用 
Beats 作为 消耗 内 存 更 少 、 消 耗资 源 更 低 的 工具 。 但 是 ,如 果 现 有 的 服务 器 还 有 大 量 内 存 可 
用 ,那么 就 可 以 直接 在 系统 上 安装 Logstash, 并 将 处 理 后 的 数据 推送 到 Elasticsearch ,从 而 
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降低 了 附加 数据 传输 层 的 复杂 度 。 

如 果 使 用 Elastic Stack 处 理 其 他 人 使 用 的 数据 , 则 无 法 承担 丢失 数据 带 来 的 损失 。 在 
某 些 情况 下 ,使 用 Beats 将 数据 推送 到 Logstash 后 . 它 最 终 会 把 数据 存储 在 Elasticsearch 
中 。 如 果 正 在 推送 和 正在 处 理 的 数据 有 延迟 的 情况 ,那么 可 能 有 些 数据 会 在 不 知情 的 情况 
下 丢失 。 在 这 种 情况 下 ,需要 使 用 消息 队列 工具 . 它 可 以 在 短 时 间 内 存储 数据 并 且 防 止 数据 
丢失 。 因 此 ,可 以 根据 需要 使 用 各 种 消息 队列 ,如 Redis/Kafka。 

理解 用 例 之 后 , 接 下 来 的 最 佳 实践 活动 就 是 安装 Elastic Stack 的 组 件 。 使 用 默认 设置 
和 配置 来 安装 组 件 时 ,最 好 重新 访问 配置 文件 ,更 改 各 种 参数 。 





11.3 管理 配置 文件 


从 生产 部 署 的 角度 来 看 ,对 配置 文件 的 更 改 , 是 最 基本 也 是 最 重要 的 。 下 面 看 看 各 种 组 
件 的 配置 文件 。 


11.3.1 了 Elasticsearch 





elasticsearch. yml 


默认 情况 下 ,Elasticsearch 中 可 以 设置 重要 属性 的 值 , 例 如 集群 和 节点 相关 的 集群 名 
称 .节点 名 称 等 。 虽 然 没 有 必要 设置 ,但 自 定义 它们 的 名 称 还 是 很 不 错 的 。 例 如 ,应 该 指定 
节点 名 称 , 以 便 记 住 并 跟踪 节点 统计 信息 。 其 中 几 个 属性 的 说 明 如 下 : 

。 修改 以 下 属性 ,更 改 集群 的 名 称 : 


# Cluster .name: my-application 
cluster .name: production-elasticstack 


。 修改 以 下 属性 ,更 改 节点 的 名 称 以 便 轻松 识别 新 加 入 群集 中 的 节点 : 


#node.name: node-1 
node .name: elasticstackl 


。 修改 以 下 属性 ,更 改 Elasticsearch 存储 数据 目录 的 位 置 : 


#path.data: /path/to/data 
path.data: /usr/share/elasticsearch/data 





@@ 在 Windows 系统 中 ,路 径 应 使 用 正 斜 杠 ?, 如 : 


path.data: 








E:\installations\stack\elasticsearch-2.3.0\config 





四 译 者 注 : 此 处 原文 中 为 反 斜 杠 , 笔 者 认为 这 里 存在 问题 ,应 为 正 斜 杠 。 
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。 修改 以 下 属性 ,更 改 Elasticsearch 日 志 存 储 目录 的 位 置 : 


#Path.logs: /path/to/logs 


11.3.2 Kibana 





kibana. yml 


类 似 于 Elasticsearch 的 elasticsearch. yml, Kibana 的 kibana. yml 也 应 更 新 。 使 用 
Kibana 时 ,重要 的 几 点 包括 : 
。 修改 以 下 属性 指定 Elasticsearch 所 在 机 器 的 IP, 更 改 Elasticsearch 实例 的 URL: 
#elasticsearch.url: http://localhost:9200 
elasticsearch.url: http://<ip-of-machine> :9200 
。 如 果 和 希望 在 Kibana 打开 时 将 用 户 重 定向 到 任何 其 他 页 面 ,例如 已 保存 的 面板 ,可 以 
修改 以 下 属性 : 
#kibana.defaultAppId: "discover" 
kibana.defaultAppId: "dashboard/<Name- of-Dashboard>" 
打开 Kibana UI 时 ,指定 保存 的 面板 名 称 即 可 直接 打开 已 保存 的 面板 。 
。 如 果 使 用 SSL 保护 从 Kibana 服务 器 到 Web 浏览 器 的 请 求 ,请 更 改 密 钥 和 证 书 的 位 
置 ,修改 以 下 属性 : 
#server.ssl.cert: /path/to/your/server.crt 
#server.ssl.key: /path/to/your/server.key 
server.ssl.cert: /usr/share/kibana/ssl- server.crt 
server.ssl.key: /usr/share/kibana/ssl-server.key 
类 似 地 ,可 以 设置 其 他 SSL 属性 来 验证 Elasticsearch。 例 如 使 用 相同 的 SSL 文件 集 
(elasticsearch. ssl. cert 和 elasticsearch. ssl. key); 提 供 由 Elasticsearch 实例 (elasticsearch. 
ssl. ca) 的 证 书 来 源 给 出 的 证 书 , 并 指定 是 否 验 证 SSL 证 书 (elasticsearch. ssl. verify)。 
。 修改 以 下 属性 ,更 改 创 建 进程 ID 文件 的 目录 位 置 : 


#pid.file: /var/run/kibana.pid 


pid.file: /usr/share/kibana/kibana-processfile.pid 


11.4” 选 树 正确 的 硬件 


安装 Elastic Stack 时 需要 了 解 一 些 重要 的 指标 ,例如 需要 多 少 内 存 、 需 要 多 少 磁盘 空 
间 、 保 持 适当 的 1/O 请 求 .资源 消耗 所 需 的 CPU 或 内 核 、 系 统 中 的 网 络 。 安 装 Elastic Stack 
时 ,通常 会 对 每 个 组 件 使 用 的 资源 量 产生 混淆 。 下 面 利 用 各 种 组 件 解决 资源 需求 的 问题 。 
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11.4.1 内 存 


内 存 容量 是 影响 应 用 程序 性 能 的 最 重要 参数 之 一 。 如 果 提 供 的 内 存 容 量 低 于 预期 , 则 
应 用 程序 可 能 会 停止 ,失败 或 显示 内 存 不 足 的 错误 。 

内 存 大 小 很 重要 ,因为 内 存 被 OS 用 于 执行 各 种 任务 。 因 此 ,确定 向 Elastic Stack 组 件 
提供 多 少 内 存 是 至 关 重 要 的 ,这 样 ,应 用 程序 和 操作 系统 性 能 才 不 会 受到 影响 。 

在 Elastic Stack 的 上 下 文中 ,内 存 对 于 决定 是 否 应 该 配置 Elasticsearch 和 Logstash 是 
至 关 重 要 的 ,因为 它们 需要 进行 大 量 的 数据 处 理 以 及 良好 的 处 理 单元 和 内 存 大 小 ,这 些 都 会 
消耗 大 量 的 资源 。Elasticsearch 是 作为 Elastic Stack 的 中 心 点 ,因为 数据 从 Logstash 或 
Beats 来 ,存储 在 Elasticsearch 中 ,同时 Kibana 也 可 以 使 用 Elasticsearch 中 的 数据 来 执行 
可 视 化 。 


11.4.1.1 Java 堆 大 小 


Java 程序 在 运行 时 会 消耗 一 定 容量 的 可 用 内 存 , 而 这 项 参数 是 配置 Elasticsearch 消耗 
内 存 大 小 的 重要 参数 。 当 数据 被 推送 到 Elasticsearch 时 , 它 开始 消耗 更 多 的 内 存 , 因 此 设 
置 最 佳 的 Java 堆 大 小 变 得 很 重要 。 如 果 Java 堆 已 经 被 用 完 , 那 么 日 志 将 不 会 再 被 推送 到 
Elasticsearch , 而 Kibana 将 无 法 正确 显示 可 视 化 /面板 的 内 容 。 

Java 堆 被 用 完 时 可 以 看 到 以 下 错误 : 


message [out of memory] [OutOfMemoryError[Java heap space]] 


最 佳 做 法 是 增加 Java 堆 的 容量 ,默认 设置 为 最 大 1 GB。 是 的 ,应 该 增加 它 , 但 这 个 设 
置 的 最 优 值 应 该 是 多 少 ,而 不 会 对 应 用 程序 和 系统 的 性 能 产生 负面 影响 ? 我们 来 看 一 些 最 
好 的 做 法 : 

。 将 堆 的 最 大 值 和 最 小 值 设置 为 相等 ; 
在 运行 过 程 中 不 需要 额外 分 配 内 存 的 情况 下 ,这 项 设置 是 很 有 用 的 。 
如 果 系统 的 总 内 存 容量 小 于 或 等 于 64 GB, 则 提供 内 存 总 量 的 50% 为 Java 堆 的 


容量 : 
由 于 操作 系统 需要 内 存 才能 执行 其 他 操作 ,因此 建议 最 多 为 Java 堆 提供 总 内 存 容 
量 的 50%。 


如 果 系 统 的 总 内 存 大 于 64 GB, 则 为 Java 堆 提 供 32 GB 的 内 存 。 即 使 拥有 大 内 存 的 
系统 ,也 不 要 设置 超过 32 GB 限制 的 内 存 容量 。 当 Java 堆 使 用 32 GB 或 更 多 容量 
时 ,JVM 需要 更 多 内 存 的 64 位 指针 来 保存 对 象 。 当 Java 堆 使 用 31 GB 或 更 少时 ， 
JVM 使 用 32 位 指针 ,这 种 指针 使 用 普通 对 象 指针 (Ordinary Object Pointers) 压 缩 
而 成 。 


RS 
人 精通 Elastic Stack 





可 以 通过 两 种 方式 来 设置 Java 堆 的 容量 
。 执行 以 下 命令 ,在 启动 Elasticsearch 节点 时 ,同时 提供 Java 堆 的 最 小 值 和 最 大 值 : 


./bin/elasticsearch -Xms8g -Xmx8g 


其 中 ,-Xms8g 将 最 小 值 设置 为 8 GB,-Xmx8g 将 最 大 值 设置 为 8GB。 





人 @ 注 意 : 如 果 使 用 的 是 32 位 系统 , 则 堆 的 最 大 值 是 很 小 的 。 在 Windows 系统 中 ， 
堆 的 最 大 值 约 为 1.5 GB。 在 UNIX 系统 中 , 堆 的 最 大 值 为 2 GB。 在 运行 32 位 虚 
拟 机 的 64 位 操作 系统 中 , 堆 的 最 大 值 可 以 设置 为 4 GB。 








更 改 位 于 $ES_HOME/bin(UNIX 系统 ) 或 $ES_HOME\bin(Windows 系统 ) 中 的 
elasticsearch shell 脚本 文件 (elasticsearch. in. sh) 中 的 以 下 配置 : 


ES_MIN MEM=2g 
ES_MAX MEM=2g 


人 @ 需 要 重新 启动 Elasticsearch, 才 能 应 用 这 些 修改 过 的 设置 。 





11.4.1.2 交换 空间 


交换 空间 是 将 内 存 页 从 内 存 中 复制 到 硬盘 中 ,以 释放 内 存 的 过 程 。 它 将 页 面 从 高 访问 
速度 的 内 存 转 移 到 低 访问 速度 的 磁盘 。 交 换 空间 启用 时 , Elasticsearch 的 运行 性 能 会 大 打 
折扣 ,这 对 Elasticsearch 来 说 是 个 不 利 因素 。 交 换 次 数 越 多 ,程序 的 执行 速度 就 越 慢 。 
Elasticsearch 已 经 在 elasticsearch. yml 配置 文件 中 提出 了 以 下 建议 : 





Elasticsearch performs poorly when the system is swapping the memory. 


( 当 系 统 正在 启用 交换 空间 时 ,Elasticsearch 会 表现 不 佳 。) 
可 以 在 elasticsearch. yml 文件 中 设置 以 下 属性 来 限制 内 存 的 交换 : 


bootstrap.memory lock:true 





人 需要 重新 启动 Elasticsearch, 才 能 应 用 这 些 修改 过 的 设置 。 











可 以 执行 以 下 命令 ,验证 设置 是 否 已 应 用 : 
curl http://localhost:9200/ nodes/process?pretty 
或 者 ,可 以 在 浏览 器 中 输入 以 下 URL 来 执行 相同 的 命令 : 


http://localhost:9200/_nodes/process? Pretty{ 在 浏览 器 中 } 
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其 中 ,localhost 是 Elasticsearch 节点 的 主机 名 。 





例如 果 将 其 设置 为 true 后 memory_lock 的 值 是 false, 则 表示 请 求 失败 。 第 一 个 
原因 可 能 是 用 户 没有 锁定 内 存 的 权限 ,可 以 通过 运行 ulimit -1 来 解决 。 也 就 是 
说 ,在 启动 Elasticsearch 之 前 ,以 root 身份 来 解除 限制 。 第 二 个 原因 可 能 是 
temp 目录 有 noexec 设 置 。 这 可 以 通过 在 Elasticsearch 开始 运行 时 指定 一 个 新 
的 temp( 临 时) 目录 来 解决 ,方法 为 . /bin/elasticsearch-Djna. tmpdir 三 /new/ 
path/to/new/dir。 








以 上 设置 是 使 用 Elasticsearch 和 Logstash 的 最 佳 做 法 。 

对 于 Kibana 和 Beats 来 说 ,其 内 存 需 求 是 最 小 的 ,因为 它们 运行 时 消耗 内 存 非 常 少 。 
Kibana 作为 基于 Web 的 客户 端 , 它 根据 浏览 器 的 消耗 来 确定 需要 多 少 内存 。 占 用 内 存 空 
间 很 低 的 Beats 组 件 占用 最 少 的 内 存 来 获取 数据 ,并 发 送 到 Logstash 或 Elasticsearch 。 


11.4.2 磁盘 


由 于 Elasticsearch 是 数据 存储 的 唯一 组 件 , 因 此 搭载 数据 的 磁盘 也 成 为 系统 中 一 个 重 
要 的 部 分 。 如 果 磁 盘 空 间 已 满 , 则 其 中 将 不 会 存储 新 数据 ,节点 可 能 会 停止 .运行 失败 或 关 
闭 。 当 处 理 副本 时 ,如 果 节 点 出 现 故 障 , 则 其 他 节点 必须 具有 容纳 其 副本 和 数据 的 能 力 , 才 
能 很 好 地 规划 存储 。 此 外 ,对 于 需要 高 速 索引 的 集群 或 节点 ,以 及 获取 大 量 日 志 数 据 的 能 力 
而 言 ,磁盘 都 显得 非常 重要 。 在 这 种 情况 下 , 当 涉 及 基于 大 量 写 人 操作 时 ,磁盘 可 能 会 发 生 
故障 ,并 成 为 集群 的 瓶颈 。 
一 些 最 佳 做 法 是 ， 
。 如 果 读 / 写 索 引 和 数据 的 操作 有 所 增加 , 则 可 以 使 用 SSD 硬盘 。 
。 使 用 高 RPM(15 K RPM 驱动 器 ) 的 高 性 能 磁盘 。 
。 通过 有 效 利用 RAID 0 的 实现 来 提高 磁盘 速度 。 
。 使 用 本 地 存储 来 存储 数据 ,而 不 是 NAS 或 其 他 实现 形式 。 
Elasticsearch 需要 磁盘 空间 来 存储 数据 、 分 片 和 副本 。 规 划 磁 盘 大 小 的 做 法 没有 固定 
的 规则 。 可 以 执行 以 下 命令 ,从 以 下 Elasticsearch 属性 中 获取 一 些 提示 。 
。 cluster. routing. allocation. disk. watermark. low: 指定 磁盘 可 以 继续 被 占用 的 最 大 
容量 限度 。 默 认 情 况 下 , 它 的 值 设置 为 85%。 也 就 是 说 ,在 一 个 节点 的 磁盘 使 用 量 
超过 85% 时 ,这 一 节点 上 不 会 再 分 配 分 片 。 该 值 可 以 设置 为 百分比 或 绝对 字 节 值 
(如 500 MB 或 10 GB) 的 形式 。 
。 cluster. routing. allocation. disk. watermark. high: 指定 磁盘 可 以 继续 保存 数据 的 最 
大 容量 限度 。 默 认 情 况 下 , 它 的 值 设 置 为 900%。 也 就 是 说 ,在 一 个 节点 的 磁盘 使 用 
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量 超过 90% 时 ,这 一 节点 上 的 分 片 将 会 被 重新 分 配 到 其 他 节点 。 该 值 可 以 设置 为 
百分比 或 绝对 字 节 值 (如 500 MB 或 10 GB) 的 形式 。 
这 里 提 到 的 百分比 值 是 指 已 使 用 的 磁盘 空间 ,而 字 节 值 是 指 空闲 的 磁盘 空间 。 

。 cluster. routing. allocation. disk. threshold_enabled: 指定 是 否 使 用 磁盘 容量 阔 值 。 
如 果 设 置 为 true, 则 上 述 限 度 将 适用 ,否则 将 不 适用 。 默 认 情 况 下 ,其 值 被 设置 为 
true。 这 项 属性 也 可 以 使 用 集群 API 进行 设置 。 

以 下 是 使 用 基于 REST 的 API 调用 Elasticsearch 的 示例 : 

PUT /_cluster/settings 

{ 


"transient" : { 


"cluster .routing.allocation.disk.threshold enabled" : true 


} 
在 位 于 $ES_HOME/config(UNIX 系统 ) 或 $ES_HOME\config(Windows 系统 ) 的 
elasticsearch 配置 文件 (elasticsearch. yml) 中 添加 以 下 属性 : 


cluster.routing.allocation.disk.threshold enabled: true 
cluster.routing.allocation.disk.watermark.low: 80% 


cluster.routing.allocation.disk.watermark.high: 85% 
或 者 : 


cluster.routing.allocation.disk.watermark.low: 15gb 


cluster.routing.allocation.disk.watermark.high: 10gb 





人 重新 启动 Elasticsearch 后 才能 应 用 这 些 修改 过 的 设置 。 





对 于 磁盘 的 适当 大 小 ,使 用 了 默认 值 .并 通过 某 些 测试 提出 了 公式 ,如 下 所 示 : 
(space per nodeX0.85)X((node count 一 replica count) / node count) 
假设 节点 包含 1TB 的 磁盘 空间 ,ES 集群 有 5 个 节点 ,副本 数量 设置 为 2。 为 了 避免 因 
个 节点 中 有 2 个 节点 掉 电 而 引发 问题 ,每 个 节点 都 应 该 允许 存储 一 定 容量 的 数据 ,其 计算 
ww ， 
(ITBX0.85)X((5 一 2)/5) 一 510 GB 





@@ 上 述 计算 细节 可 以 从 以 下 资料 中 获得 ; 


http://svops. com/blog/elasticsearch-disk-space-calculations/ 
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11.4.3 输入 输出 


输入 输出 (1/O) 调 度 是 最 不 被 关注 的 参数 ,但 默认 情况 下 , 它 提供 了 良好 的 性 能 。 
在 使 用 UNIX 内 核 的 情况 下 ,如 果 使 用 SSD 硬盘 而 不 是 HDD, 则 需要 对 该 参数 进行 

默认 情况 下 ,I/O 调度 是 完全 公平 队列 (Completely Fair Queuing,CFQ)。 这 种 类 型 的 
调度 机 制 在 处 理 提交 信息 时 提供 请 求 ,并 随后 为 每 个 队列 分 配 时 间 片 ,以 同步 的 方式 访问 磁 
盘 。 这 种 调度 机 制 非常 适合 HDD 硬盘 的 运转 方式 。 

对 于 SSD 硬盘 而 言 ,由 于 没有 盘 片 旋转 的 运转 机 制 , 这 种 调度 机 制 效 率 很 低 。 对 于 
SSD 硬盘 ,可 以 使 用 空 操作 (Noop) 或 截止 时 间 (Deadline) 的 方式 : 

。 Noop 是 最 简单 的 1/O 调度 器 , 它 将 请 求 放 入 基本 FIFO( 先 进 先 出 ) 队 列 中 。 

。 截止 时 间 的 方式 保证 每 个 请 求 的 服务 启动 时 间 。 此 调度 程序 可 以 降低 1/O 延迟 , 提 

高 吞吐 量 ,并 消除 重新 将 1/O 请 求 排序 所 需 的 时 间 。 
可 以 在 UNIX 环境 中 执行 以 下 命令 更 改 设置 ， 
。 检查 当前 执行 的 调度 程序 : 


cat /sys/block/sda/queue/scheduler 


返回 的 结果 中 ,将 在 方 括号 中 显示 各 种 调度 程序 和 选 定 的 调度 程序 名 称 ,如 下 面 的 
命令 所 示 : 


noop anticipatory deadline [cfq] 
。 更 改 调度 程序 : 

echo noop | sudo tee /sys/block/sda/queue/scheduler 
。 检查 调度 程序 是 否 已 更 改 : 

cat /sys/block/sda/queue/scheduler 


返回 的 结果 中 ,将 在 方 括号 中 显示 各 种 调度 程序 和 选 定 的 调度 程序 名 称 , 如 下 面 的 
命令 所 示 : 





[noop] anticipatory deadline cfq 





人 @ 这 是 一 个 暂时 的 更 改 ,并 将 在 机 器 重新 启动 后 重 置 调度 程序 。 此 外 ,Noop 不 适 
用 于 HDD 硬盘 。 
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11.4.4 CPU 


Elastic Stack 组 件 往 往 对 所 需 的 CPU 资源 要 求 较 低 。 与 其 他 资源 相 比 ,其 要 求 较 少 。 
最 佳 做 法 是 : 

。 选择 现代 处 理 器 ; 

。 选择 多 个 核心 ; 

。 如 果 有 选择 CPU 与 内 核 方面 的 困难 , 则 选择 具有 较 高 内 核 数 量 的 系统 ,而 不 是 具有 

较 高 时 钟 速度 的 CPU 。 

多 核 CPU 具有 许多 优点 ,因为 任何 操作 (如 索引 或 搜索 ) 都 使 用 一 个 CPU 内 核 , 所 以 

多 个 内 核 将 有 助 于 执行 多 个 并 发 操作 。 


11.4.5 网 络 


有 些 人 可 能 忽略 这 个 问题 了 ,因为 每 个 人 都 能 提供 或 使 用 快速 且 优质 的 网 络 连接 和 设 
备 。 要 在 分 布 式 系统 中 实现 良好 的 性 能 ,需要 一 个 快速 可 靠 的 网 络 。 高 带宽 对 各 方面 都 有 
好 处 ,并且 低 延迟 确保 了 节点 可 以 无 缝 通信。 
一 些 最 佳 做 法 是 : 
使 用 现代 数据 中 心 ,完成 网 络 连接 ; 
。 使 用 高 速 连接 ,完成 节点 连接 ; 
。 避免 在 跨越 地 理 位 置 上 距离 太 远 的 数据 中 心 构建 集群 ; 
。 尝试 在 一 个 数据 中 心 内 集成 一 个 集群 ; 
。 如 果 使 用 多 个 数据 中 心 ,确保 多 数据 中 心 之 间 的 网 络 连 接 稳健 ,并 保证 低 延 迟 。 


11.5 ”搜索 和 泰 引 性 能 


到 目前 为 止 ,已 经 发 现 了 一 些 资源 利用 方面 的 最 佳 做 法 。 内 存 `.CPU LI/O、 磁 盘 和 网 络 
在 选择 首选 系统 配置 的 过 程 中 起 着 重要 的 作用 ;可 以 调整 一 些 设置 ,以 改善 在 Elasticsearch 
和 Lucene 中 执行 搜索 和 索引 时 的 资源 使 用 情况 。 


11.5.1 过 滤 缓 存 


默认 情况 下 ,Elasticsearch 中 用 于 查询 的 过 滤器 被 缓存 时 ,意味 着 查询 使 用 过 滤器 时 
Elasticsearch 找到 与 过 滤器 相关 的 文档 ,并 将 过 滤器 存 人 缓存 中 。 缓 存 后 ,每 当 具 有 相同 过 
滤器 的 查询 被 执行 时 , 它 将 提供 更 快 的 结果 ,因为 过 滤器 内 容 已 被 缓存 到 内 存 。 由 于 内 部 使 
用 内 存 ,因此 设置 属性 ,以 限制 Filter 高 速 缓存 的 使 用 ,这 是 十 分 明智 的 。 虽 然 每 个 过 滤器 
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使 用 较 少 的 内 存 , 但 如 果 使 用 大 量 的 过 滤器 , 则 JVM 堆 的 大 小 可 能 会 受到 影响 。 使 用 以 下 
属性 ,可 以 限制 过 滤器 高 速 缓存 使 用 的 堆 内 存 容量 : 





indices.cache.filter.size:10% 


默认 情况 下 ,这 项 属性 的 值 为 10%。 它 可 以 接受 百分比 或 内 存 字 节 级 别 的 值 ,例如 
256MB。 如 果 要 使 用 大 量 的 过 滤器 ,那么 可 以 将 此 属性 的 值 增加 到 适当 的 值 。 在 
elasticsearch. yml 配置 文件 中 可 以 添加 此 属性 。 


11. 5.2 Fielddata 的 容量 


这 是 一 个 重要 的 设置 , 它 直 接 影响 Elasticsearch 的 搜索 和 执行 查询 的 性 能 。 一 旦 缓存 
了 查询 .搜索 或 字段 ,就 能 够 通过 直接 加 载 缓存 内 容 来 提供 更 快 的 结果 。 缓 存 所 有 内 容 可 能 
会 产生 一 个 问题 , 它 取决 于 可 用 的 缓存 容量 ,一 旦 系统 中 的 缓存 已 满 , 则 缓存 将 会 导致 搜索 
和 索引 数据 的 性 能 不 佳 。 

Fielddata 可 将 数据 从 磁盘 换 和 内存, 这 是 十 分 消耗 系统 资源 的 。 如 果 fielddata 超过 指 
定 的 大 小 , 则 缓存 中 的 数据 需要 被 换 出 ,以 便 为 新 数据 创建 空间 ,这 是 一 项 非常 消耗 系统 资 
源 的 操作 。 如 果 Elasticsearch 需要 反复 将 数据 从 缓存 换 出 ,并 将 数据 重新 加 载 到 缓存 中 ， 
那么 性 能 将 会 很 差 。 

以 下 属性 可 用 于 限制 fielddata 的 大 小 : 


indices.fielddata.cache.size 


默认 情况 下 ,这 项 属性 的 值 是 无 界 的 ,这 意味 着 Elasticsearch 将 永远 不 会 从 fielddata 
中 删除 数据 。 想 象 一 下 日 常 创建 索引 的 场景 ,通常 会 保留 所 有 的 索引 。Fielddata 将 不 断 增 
长 ,默认 情况 下 不 会 从 缓存 中 取出 数据 。 在 这 种 情况 下 不 会 加 载 新 的 数据 ,此 时 fielddata 
将 被 完全 充满 ,程序 将 被 卡 住 ,因为 无 法 加 载 新 的 数据 。 如 果 不 常 使 用 旧 索 引 , 建 议 将 属性 
设置 为 清除 旧 数 据 。 

可 以 在 elasticsearch. yml 配置 文件 中 添加 此 属性 : 


indices.fielddata.cache.size: 40% 


这 项 属性 用 来 设置 fielddata 缓存 容量 的 最 大 值 , 以 百分比 或 字 节 值 来 定义 节点 堆 空 间 
(node heap space) 的 大 小 。 

除了 该 属性 ,还 需要 了 解 断路 器 的 工作 。 为 什么 要 了 人 解 这 个 属性 ? 这 是 一 个 有 趣 的 问 
题 。 一 旦 数据 被 加 载 ,Fielddata 总 是 会 被 检查 。 如 果 其 大 小 可 满足 需求 ,就 会 将 数据 加 载 
到 缓存 中 ,否则 会 清除 旧 数 据 并 重新 加 载 。 如 果 一 个 查询 尝试 将 更 多 的 数据 加 载 到 
fielddata 时 超过 了 可 用 内 存 会 怎么 样 ? 在 这 种 情况 下 .将 得 到 OutOfMemoryException 错 
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误 提示 。 

为 了 处 理 这 种 情况 ,断路 器 基于 各 种 参数 估计 一 个 查询 所 使 用 的 内 存 , 并 检查 内 存 容量 
是 否 可 用 。 如 果 估 计 查 询 的 要 求 高 于 阔 值 , 则 断路 器 将 被 触发 ,查询 将 异常 中 止 。 这 样 ， 
OutOfMemoryException 错误 提示 便 不 会 出 现 。 

可 以 在 elasticsearch. yml 配置 文件 中 添加 此 属性 : 


indices.breaker.fielddata.limit: 70% 


它 将 按照 节点 堆 空 间 的 百分比 或 字 节 值 来 设置 fielddata 缓存 容量 的 最 大 值 。 默 认 情 
况 下 ,此 属性 的 值 为 60%。 


请 确保 fielddata 缓存 容量 的 值 低 于 fielddata 断路 器 的 阔 值 。 如 果 缓 存 容 量 高 过 
阔 值 ,断路 器 将 被 触发 ,将 会 得 到 以 下 异常 信息 ， 


ElasticsearchException [ org. elasticsearch. common. breaker. 


CircuitBreakingException: Data too large, data for field [id] would be larger 
than limit of [8589934592/8gb] ]; 





上 述 设 置 也 可 以 使 用 REST API 命令 动态 设置 : 


PUT /_cluster/settings 

{ 
"persistent": { 
"indices.breaker.fielddata.limit" : "50%" 
"indices.fielddata.cache.size" : "40%" 


} 


11.5.3 索引 缓冲 区 


索引 缓冲 区 用 于 存储 新 索引 的 文档 。 当 缓冲 区 已 存 满 时 ,索引 中 的 文档 将 会 写 在 磁盘 
上 ,由 于 与 内 存 相 比 , 读 取 磁 盘 数 据 的 速度 会 很 慢 ,从 而 会 导致 性 能 低下 。 因 此 ,增加 索引 绥 
冲 区 的 大 小 很 重要 。 需 要 进行 以 下 设置 : 


indices.memory.index buffer size:30% 


默认 情况 下 ,设置 的 值 为 10%% ,这 意味 着 索引 缓冲 区 占 堆 内 存 总 量 的 10% ,该 值 可 以 设 
置 为 百分比 或 字 节 值 。 该 属性 需要 添加 在 Elasticsearch 的 配置 文件 elasticsearch. yml 中 。 





全 这 是 一 个 静态 属性 ,必须 在 集群 中 的 每 个 数据 节点 上 进行 配置 。 
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11.6 ”调整 Elasticsearch 集群 


选择 正确 的 节点 类 别 ,对 于 确定 集群 中 的 节点 数量 、 要 使 用 的 分 片 和 副本 的 数量 、 要 存 
储 的 索引 数量 ,从 而 有 效 地 规划 Elasticsearch 集群 是 非常 重要 的 。 确 定 Elasticsearch 集群 
的 大 小 没有 固定 的 规则 。 


11.6.1 选择 正确 的 节点 


在 Elasticsearch 中 处 理 节 点 时 ,对 于 可 用 的 不 同类 型 的 节点 没有 明确 区 分 。 让 我 们 来 
了 解 Elasticsearch 集群 中 不 同类 型 的 节点 。 


11.6.1.1 主 节点 和 数据 节点 


主 节点 和 数据 节点 (master and data node) 是 Elasticsearch 实例 启动 时 ,在 Elasticsearch 集 
群 中 创建 的 默认 节点 。 这 种 类 型 的 节点 充当 主 节点 并 存储 数据 。 如 果 此 节点 不 是 主 节点 , 那 
么 当 另 一 个 节点 发 生 故 障 时 ,此 节点 将 可 以 成 为 主 节 点 。 它 执行 主 节点 和 数据 节点 的 操作 ,如 
集群 相关 任务 ,创建 或 删除 索引 ,跟踪 集群 中 的 节点 等 。 该 节点 消耗 大 量 资源 ,因为 它 需 要 主 
节点 操作 和 数据 节点 操作 的 资源 。 因 此 ,在 类 似 的 生产 环境 中 ,如 果 在 该 节点 上 的 负载 很 高 ， 
那么 该 节点 可 能 会 停止 。 

要 配置 主 节点 和 数据 节点 ,请 在 elasticsearch. yml 中 添加 以 下 属性 : 


node.master: true 
node.data: true 


node.ingest: false 


1. 主 节点 

这 是 在 Elasticsearch 中 的 一 种 类 型 的 节点 , 它 仅 执行 主 节点 操作 。 这 种 类 型 的 节点 在 
生产 环境 中 非常 必要 ,因为 它 不 会 消耗 大 量 资源 ,并 且 不 执行 资源 密集 型 任务 。 此 外 ,为 了 
避免 先前 解释 的 问题 ,要 明确 区 分 主 节点 和 数据 节点 并 保持 集群 的 稳定 性 ,这 一 点 很 重要 。 
在 生产 环境 中 ,让 主 节点 处 于 始终 稳定 的 状态 是 非常 重要 的 。 

要 配置 主 节 点 ,请 在 elasticsearch. yml 中 添加 以 下 属性 : 

node.master: true 


node.data: false 


node.ingest: false 





@+ 节点 (master nodes) 和 主 数 据 节 点 (master data nodes) 也 称 为 master-eligible node。 
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2. 数据 节点 

这 是 Elasticsearch 中 另 一 种 仅 在 节点 内 存储 数据 的 节点 。 除 了 存储 、 索 引 和 提供 搜索 
查询 结果 之 外 , 它 不 执行 其 他 操作 。 它 可 以 被 认为 是 一 个 工作 节点 ,该 节点 执行 与 CRUD 
( 增 \ 删 改 、 查 ) 、 聚 合 和 搜索 之 类 的 各 种 数据 相关 的 操作 。 该 节点 完全 不 同 于 主 节 点 。 

要 配置 数据 节点 ,请 在 elasticsearch. yml 中 添加 以 下 属性 : 


node.data: true 
node.master: false 


node .ingest: false 


3。Ingest 节点 

这 是 Elasticsearch 中 近期 推出 的 另 一 种 类 型 的 节点 ,用 于 在 存储 数据 前 对 事件 进行 预 
处 理 。 它 由 单个 或 多 个 processor 组 成 ,可 以 执行 处 理事 件 的 预 处 理 流 水 线 。 

要 配置 Ingest 节点 ,请 在 elasticsearch. yml 中 添加 以 下 属性 : 

node.data: false 


node.master: false 


node.ingest: true 


4. 非 主 节点 、 非 数据 节点 以 及 Ingest 的 其 他 节点 


这 是 Elasticsearch 中 另 一 种 类 型 的 节点 ,它们 既 不 用 作 主 节点 、 数 据 节点 ,也 不 用 作 
Ingest 节点 。 你 可 能 想 知道 一 个 节点 不 执行 Elasticsearch 节点 基本 操作 的 目的 是 什么 。 该 


节点 充当 了 负载 均衡 器 ,适当 地 为 请 求 分 配 路 由 。 它 将 所 有 的 集群 级 请 求 的 路 由 分 配 到 主 
节点 以 及 与 数据 节点 所 有 数据 相关 的 请 求 中 ,并 将 负载 分 配 到 集群 中 的 其 他 节点 中 。 它 作 
为 主 节点 和 数据 节点 之 间 的 智能 协调 器 ,是 仅 用 于 协调 的 节点 。 

要 配置 这 个 仅 用 于 协调 的 节点 ,请 在 elasticsearch. yml 中 添加 以 下 属性 : 

node.master: false 


node.data: false 


node.ingest: false 





全 在 集群 中 添加 大 量 仅 用 于 协调 的 节点 会 增加 系统 负担 ,因为 主 节点 跟踪 的 每 个 
节点 都 是 集群 的 一 部 分 ,而 它们 同时 也 需要 获取 自己 这 一 部 分 中 每 个 节点 的 确认 
信息 。 








集群 中 的 每 个 节点 除了 各 自 的 角色 外 ,还 可 以 处 理 HTTP 请 求 和 Transport 的 网 络 流 
通 量 。Transport 是 一 个 能 够 无 缝 连接 节点 之 间 内 部 通信 的 模块 。 使 用 HTTP 请 求 ,可 以 
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使 外 部 REST 客户 端 访 问 HTTP 层 或 通过 HTTP 层 访问 API。 
要 启用 HTTP 请 求 ,请 在 elasticsearch. yml 中 添加 以 下 属性 : 


http.enabled: true 
要 禁用 HTTP 请 求 ,请 在 elasticsearch. yml 中 添加 以 下 属性 : 
http.enabled: false 


在 数据 节点 上 禁用 HTTP 请 求 , 可 以 确保 数据 节点 仅 执 行 与 数据 相关 的 操作 ,而 不 会 
因此 而 造成 负担 。 





全 应 该 在 与 Kibana 的 主机 相同 的 机 器 上 运行 Client Node, 它 可 以 轻松 地 在 作为 负 
载 均 衡器 的 节点 上 分 发 Kibana 请 求 。 





11.6.2 确定 节点 数 


每 个 人 都 想 知道 如 何 估计 Elasticsearch 集群 的 节点 数 。 其 实 这 很 难 估计 ,因为 它 涉 及 
各 种 因素 ,例如 : 

。 每 个 节点 有 多 少 内 存 ? 

。 每 个 节点 有 多 少 磁 盘 空 间 ? 

。 将 创建 多 少 索引 ? 

。 将 在 一 天 或 更 短 的 时 间 内 存储 多 少数 据 ? 

。 想 创 建 多 少 个 分 片 ? 每 个 分 片 要 创建 多 少 副本 ? 

。 会 使 用 多 少 搜 索 查询 ? 

在 估计 集群 中 的 节点 数量 之 前 ,所 有 上 述 问题 似乎 都 被 忽略 ,或 者 无 法 清楚 地 回答 。 如 
果 不 知道 或 无 法 确定 所 需 的 节点 数量 , 则 从 少量 节点 开始 。 

假设 正在 使 用 Elastic Stack 进行 日 志 分 析 , 其 中 包含 每 天 消耗 500 MB 数据 的 一 百 万 
条 记录 。 创 建 一 个 按 天 存储 的 索引 ,并 且 从 Kibana 面板 执行 少 于 100 个 搜索 查询 。 此 外 ， 
不 使 用 任何 副本 。 在 这 种 情况 下 ,应 用 程序 不 是 很 重要 。 可 以 选择 单一 的 节点 ,内 存 为 
64 GB ,磁盘 空间 为 1 TB, 并 具有 四 个 2.2 GHz 的 CPU 核心 。 对 于 这 种 情况 ,一 个 节点 就 
足够 了 ,直到 磁盘 空间 存 满 为 止 。 

这 样 会 出 现 脑 裂 (Split-Brain) 的 问题 ,这 个 问题 在 配置 不 当 的 集群 
中 非常 这 种 情况 是 由 于 某 些 原因 导致 节点 之 间 的 通信 不 正确 ,或 节点 发 生 故 障 而 引 

如 果 其 中 一 个 从 节点 不 能 与 主 节 点 通信 ,或 者 该 节点 是 主 节 点 , 则 会 选 出 新 的 主 节点 。 
新 的 主 节 点 将 执行 故障 主 节点 的 任务 。 一 旦 故障 主 节点 恢复 ,新 的 主 节点 就 将 再 次 成 为 从 
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节点 。 在 Split-Brain 问题 中 ,假设 有 两 个 节点 ,如 果 主 节点 关闭 , 则 从 节点 将 成 为 主 节点 。 
一 旦 故障 主 节点 恢复 , 则 出 现 以 下 情况 : 
。 故障 的 主 节点 认为 新 的 主 节点 将 被 降级 为 从 节点 。 
。 新 的 主 节 点 认为 原始 主 节点 掉 线 ,并 应 作为 从 属 节点 再 次 加 入 。 
因此 Split-Brain 问题 发 生 了 。 
防止 它 发 生 的 最 佳 做 法 是 : 
。 在 Elasticsearch 集群 中 运行 奇数 个 节点 。 
。 将 每 个 节点 分 别 手动 配置 为 主 节 点 或 数据 节点 ,以 避免 在 Elasticsearch 集群 的 小 范 
围 设置 中 出 现 Split-Brain 问题 。 
。 配置 discovery. zen. minimum_master_nodes 属性 。 这 项 属性 可 以 在 选择 新 的 主 节 
点 之 前 提供 集群 中 需要 运行 的 最 少 节点 数 。 
。 配置 discovery. zen. minimum_master_nodes 的 公式 是 (N/2) 十 1, 其 中 NN 是 集群 中 
的 节点 数 。 


11.6.3 确定 分 片 数 


这 是 一 个 非常 困难 的 问题 ,因为 分 片 的 数量 取决 于 各 种 因素 ,如 系统 的 内 存 、 磁 盘 空 间 、 
索引 数量 .索引 中 的 文档 总 数 、 文 档 占用 的 大 小 ` 运 行 查询 的 数量 ,搜索 复杂 度 、 数 据 的 聚 
合 等 。 

面 对 如 此 大 量 的 依赖 因素 ,无 法 评估 一 个 分 片 是 否 太 少 或 数 千 个 分 片 是 否 太 多 。 另 外 ， 
分 片 一 经 定义 就 不 能 更 改 , 除 非 重 新 索引 文档 ,而 这 会 带 来 额外 的 系统 开销 。 

要 确定 分 片 数量 ,一 个 关键 参数 是 了 解数 据 量 将 会 增长 多 少 。 每 个 分 配 分 片 的 方案 都 
会 有 附加 成 本 ,因为 分 片 消耗 CPU 内存、 硬盘 和 文件 处 理 功 能 等 各 种 资源 。 每 个 调整 集群 
大 小 的 决定 都 会 落 到 这 个 问题 上 : 试图 解决 的 用 例 是 什么 ?因为 一 切 都 取决 于 用 例 的 重要 
性 和 关键 性 ,这 将 使 得 它 更 容易 规划 。 

以 下 是 一 些 最 佳 做 法 : 

。 将 分 片 数 设置 为 集群 中 节点 数量 的 一 到 三 倍 ; 

。 不 要 设置 大 量 分 片 来 过 度 使 用 集群 ; 

。 通过 在 测试 环境 中 创建 类 似 生产 的 场景 ,填充 实际 数据 并 执行 拟 使 用 的 搜索 查询 ， 





来 了 解 分 片 的 最 大 处 理 能 力 ; 
。 如 果 集 群 的 性 能 由 于 添加 了 分 片 而 降低 , 则 添加 的 节点 和 分 片 将 由 Elasticsearch 集 
群 自动 均衡 ; 


。 从 较 少 的 副本 开始 ,然后 随 着 时 间 的 推移 而 增加 。 
如 本 章 前 面 所 讨论 的 那样 ,使 用 分 片 和 副本 计算 磁盘 空间 时 ,重要 的 是 相应 地 调整 分 片 
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的 大 小 ,因为 一 切 都 将 取决 于 此 。 在 定义 了 可 以 由 单个 分 片 处 理 的 容量 之 后 ,可 以 通过 设置 
额外 的 缓冲 区 ,并 观察 数据 的 瞬时 增长 ,来 推算 分 片 大 小 。 如 果 数 据 增加 ,可 以 用 总 数据 量 
和 附加 缓冲 区 的 大 小 来 除 以 单个 分 片 的 总 容量 ,以 此 作为 设置 分 片 大 小 的 依据 。 


11.6.4 缩减 磁盘 空间 


磁盘 空间 是 确定 节点 或 集群 大 小 的 重要 参数 之 一 ,可 以 减少 索引 和 文档 所 占用 的 磁盘 
空间 ,这 点 很 重要 。 这 可 以 通过 配置 级 属性 完成 .并 在 索引 级 别 进行 一 些 更 改 。 我 们 来 看 看 
一 些 最 好 的 做 法 : 
。 通过 将 以 下 属性 添加 到 elasticsearch. yml 文件 来 启用 压缩 : 
index.store.compress.stored: true 
index.store.compress.tv: true 
上 述 属 性 用 于 压缩 索引 中 的 存储 字段 ,并 压缩 词 项 向 量 文 件 , 该 文件 存储 了 文档 字段 中 
有 关 词 项 的 统计 信息 。 
。 删除 所 有 不 必要 的 字段 或 仅 为 必需 的 字段 创建 索引 。 此 步骤 可 以 在 Logstash 级 别 
完成 。 
。 如 果 不 需 要 ,请 删除 @message、@source 和 其 他 字段 。 如 果 使 用 Logstash Grok 过 
滤器 , 则 可 以 在 各 个 字段 中 分 解 消息 字段 ,因此 可 以 删除 @message 字段 。 
。 如 果 不 需 要 ,请 禁用 _all 字段 。 
这 个 字段 是 将 所 有 字段 的 值 连接 成 单个 字符 串 的 特殊 字段 , 它 需 要 额外 的 磁盘 空间 
和 CPU 资源 才能 运行 。 
这 里 存在 一 个 需要 权衡 的 问题 。 该 字段 后 ,搜索 一 个 词 时 ,即使 不 了 解 该 词 在 
哪个 字段 中 存在 ， te 禁用 该 字段 后 ,就 需要 知道 确切 的 字段 名 称 
并 指定 要 搜索 的 内 容 。 
。 将 字段 设置 为 not_analyzed, 再 根据 需要 添加 analyzed 字段 。 
这 是 确定 搜索 如 何 工作 的 另 一 种 特殊 字段 属性 。 它 消耗 额外 的 资源 来 分 词 , 如 内 存 和 
盘 空间 。 默 认 情况 下 ,如 果 词 包含 点 . 连 字符 等 内 容 , 则 将 其 分 割 成 多 个 子 词 。 
这 里 也 存在 一 个 需要 权衡 的 问题 。 有 些 词 项 需要 精确 完整 地 表达 而 不 可 拆 分 ,在 这 
样 的 使 用 场景 下 ,将 字段 设置 为 not_analyzed 总 是 有 好 处 的 。 





11.7 ”Logstash 配置 文件 


配置 文件 是 运行 Logstash 的 关键 。 由 于 Logstash 需要 创建 /更 新 配置 文件 ,所 以 重要 
的 是 要 有 一 个 有 效 和 灵活 的 配置 ,可 以 在 需要 时 轻松 地 进行 更 改 。 我 们 来 看 看 应 该 遵循 的 
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一 些 原则 。 
11.7.1 对 多 个 数据 源 分 类 


从 多 个 不 同 的 数据 来 源 收集 数据 (以 便 为 随后 的 数据 分 析 做 准备 ) 时 ,最 好 为 每 种 不 同 
来 源 的 数据 分 别 创建 一 个 类 型 ,对 其 进行 分 类 。 
我 们 来 看 下 面 的 例子 : 


input { 

file { 
path =>"/path/to/directory/" 
type =>"datanode" 

} 

file { 
path =>"/path/to/directory/" 
type =>"hbase" 

} 

file { 
path =>"/path/to/directory/" 
type =>"yarn" 


} 
添加 类 型 时 ,可 以 根据 其 关联 的 数据 源 类 型 使 用 不 同 的 过 滤器 和 输出 。 
11.7.2 使 用 conditional 条 件 


Logstash 的 配置 应 该 基于 不 同 的 使 用 场景 ,在 过 滤 日 志 信 息 时 使 用 conditional 条 件 。 
它 提供 执行 某 些 既定 操作 的 条 件 , 而 这 些 操作 将 匹配 在 条 件 上 。 有 不 同 来 源 的 数据 需要 进 
行 特定 过 滤 或 输出 时 ,应 该 使 用 这 种 条 件 。 我 们 来 看 下 面 的 例子 : 


output { 

if [type] =="datanode" { 
stdout { codec =>rubydebug } 

} 

if [type] =="hbase" { 
elasticsearch { 
hosts =>"localhost :9200" 
index =>"]logs-%{+YYYY.MM.dd}" 
document type =>"hbase" 
} 


第 11 章 最 佳 实践 范例 363 





} 

if [type] =="yarn" { 

file { 
path =>"/var/log/logstash/file.txt 
} 


} 


11.7.3 使 用 自 定义 grok 模式 


grok 模式 比 以 往 任何 时 候 都 更 强大 。 对 于 解析 数据 源 , 如 果 数 据 带 有 自 定义 格式 或 
grok 原本 不 存在 的 格式 ,那么 建议 创建 自 定义 grok 模式 。 拥有 自己 定制 的 grok 模式 ,处 
理 和 解析 数据 时 可 以 有 更 多 的 灵活 性 。 


11.7.4 简化 grokparsefailure 

每 当 grok 模式 无 法 匹配 时 ,就 会 自动 添加 _grokparsefailure 的 标签 。 但 是 ,如 果 有 多 
个 grok 模式 , 则 很 难 知 道 哪个 grok 模式 解析 失败 。 为 此 ,为 每 个 匹配 的 grok 模式 添加 
tag_on_failure 标签 ,以 便 容易 识别 是 哪个 grok 过 滤器 解析 数据 失败 。 

例如 : 


grok { 
match =>["message", "% {PATTERN NAME}"] 
tag on failure =>["grokfailed patternname"] 


} 


11.7.5 字段 的 映像 


Logstash 解析 并 处 理 所 有 字段 ,然后 将 其 作为 字符 串 类 型 数据 存储 在 Elasticsearch 
中 。 建 立 字段 的 映像 有 两 种 方法 : 
。 使 用 Logstash 智能 模式 : 用 于 提供 grok 模式 中 的 字段 显 式 映像 。 例 如 ， 


$$ {GREEDYDATA:fieldname:float} 


可 以 指定 float 或 int 来 建立 字段 的 映像 。 
。 使 用 Mutate 过 滤器 和 Convert 属性 。 


11.7.6 动态 模板 
它 用 于 创建 模板 ,以 便 根据 数据 和 模板 中 定义 的 数据 类 型 来 解析 所 有 字段 ,并 执行 操 
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作 。 上 默认 情况 下 ,使 用 Logstash 将 数据 推送 到 Elasticsearch, 并 且 数 据 的 索引 与 logstash- * 
匹配 时 ,程序 会 自动 使 用 模板 。 此 模板 找到 一 个 字符 串 数据 类 型 的 字段 ,并 创建 两 个 字段 
fieldname 和 fieldname. keyword ,其 中 fieldname 经 过 分 词 ,而 fieldname. keyword 不 进行 
分 词 。 可 以 创建 自己 的 动态 模板 ,这 样 就 不 用 再 显 式 设置 字段 的 映像 了 。 


11.7.7 测试 配置 


建议 测试 Logstash 配置 ,以 检查 配置 文件 是 否 正确 ,以 及 数据 解析 是 否 正确 。 下 面 是 
两 个 不 错 的 方式 : 

。 使 用 --configtest 选项 检查 配置 以 及 配置 的 语法 是 否 正 确 。 

。 使 用 stdout 输出 验证 数据 是 否 正确 解析 。 

此 外 ,还 可 以 使 用 stdin 输入 和 stdout 输出 验证 用 于 处 理 数 据 的 逻辑 是 否 正确 。 





11.8 ”重新 索引 数据 


更 改 字段 的 模式 (schema) 或 映像 时 ,Elasticsearch 中 对 数据 的 重新 索引 是 一 个 挑战 。 
更 改 模式 时 ,需要 重新 索引 该 字段 的 所 有 文档 ,以 便 将 映像 的 更 改 应 用 到 先前 存储 的 文档 
中 ;或 者 不 重新 索引 旧 文 档 , 这 些 旧 文档 将 随 着 模式 的 更 改 而 失去 作用 。 

重新 索引 数据 的 过 程 如 下 : 

(1) 使 用 新 的 映像 和 设置 来 创建 一 个 新 索引 。 

(2) 从 旧 索 引 中 取出 文档 ,并 存 人 新 索引 中 。 

应 尽 可 能 减少 更 改 模式 和 重新 建立 索引 带 来 的 影响 和 停机 时 间 ,请 使 用 下 面 的 方法 。 

别名 (alias) 是 一 个 强大 的 功能 ,利用 它 可 以 轻松 地 将 完整 的 索引 数据 重新 索引 ,而 无 须 
任何 停机 时 间 。 别 名 相当 于 给 出 索引 名 称 的 昵称 , 它 可 以 被 认为 是 一 个 象征 性 的 链接 。 

让 我 们 看 看 如 何 使 用 别名 : 

。 使 用 文档 的 映像 和 设置 创建 索引 ; 

。 创建 一 个 别名 来 指向 索引 名 称 。 

更 新 模式 /映像 之 后 : 

。 使 用 新 的 映像 和 设置 创建 一 个 新 索引 ; 

。 使 用 重新 索引 API, 将 旧 索 引 的 数据 重新 索引 到 新 索引 中 ; 

。 删 除 旧 索引 别名 ,并 将 新 索引 添加 到 已 创建 的 相同 别名 中 ; 

。 删除 旧 索 引 。 
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11.9 本章 狼 结 


在 实践 中 应 该 遵循 最 佳 实践 范例 ,因为 这 些 范例 可 以 消除 设置 .配置 和 使 用 Elastic 
Stack 时 面临 的 各 种 问题 。 可 以 根据 要 求 调整 多 种 设置 ,使 Stack 运行 更 加 稳定 。 

在 本 章 中 ,我 们 讨论 了 许多 配置 和 使 用 Elastic Stack 的 方法 。 虽 然 本 章 尽 可 能 涵盖 大 
部 分 要 点 ,但 也 可 能 还 有 其 他 一 些 设置 是 满足 特定 要 求 的 最 佳 做 法 。 必 须 仔 细 分 析 配 置 和 
设置 ,以 避免 出 现 漏 洞 。 请 记 住 ,只 要 有 一 个 糟糕 的 设置 ,就 可 能 导致 一 场 灾难 。 

下 一 章 将 介绍 一 个 案例 研究 ,探索 如 何 利用 Elastic Stack 来 实现 最 终 目 标 。 
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案例 分 析 一 一 Meetup 


前 面 已 经 介绍 了 Intranet portal 的 实际 使 用 场景 ,其 中 展示 了 第 6 章 Elastic Stack 实 
战 中 Elastic Stack 的 强大 功能 。 这 个 案例 更 多 的 是 日 志 管理 而 不 是 数据 分 析 。 在 本 书 中 ， 
我 们 已 经 了 解 到 ,Elastic Stack 在 数据 分 析 方 面 可 以 发 挥 出 神奇 的 功力 。 在 Kibana 的 帮助 
下 ,可 以 为 数字 赋 以 丰富 多 彩 的 表现 形式 ,这 些 最 终 可 以 帮助 你 深刻 理解 数据 ,以 此 来 高 效 
配置 整个 应 用 系统 环境 ,并 准确 做 出 决策 。 

在 本 章 中 我 们 来 了 解 Meetup, 并 分 析 一 个 真实 的 使 用 场景 。 我 们 将 收集 Meetup 数 
据 , 找 出 各 类 统计 数据 .热门 Meetup 等 信息 。 本 章 将 介绍 的 主题 如 下 : 

。 了解 Meetup 的 使 用 场景 ; 

。 环境 搭建 ; 

。 使 用 Kibana 分 析 数 据 。 


12.1 了 了解 Meetup 使 用 场景 


世界 可 能 正在 向 核心 家 庭 转移 ,但 是 人 们 每 天 的 聚会 (meetup) 却 越 来 越 多 ,这 表明 人 
们 仍然 需要 关注 彼此 的 互动 。Meetup 是 一 个 用 于 人 们 聚会 的 应 用 。 人 们 会 时 常 举 办 活动 、 
做 事情 、 分 享 知识 ,并 计划 共同 的 兴趣 。 这 是 由 Meetup 公司 于 2002 年 6 月 推出 的 一 个 软 
件 平台 所 支持 的 。 该 平台 可 以 在 https://www. meetup. com/ 上 访问 ,并 可 供 大 家 加 入 ,以 
及 参加 聚会 。 它 在 全 球 范 围 内 有 超过 2900 万 用 户 、 超 过 180 个 国家 的 26 万 多 个 团体 ,人 们 
平均 每 月 会 参加 超过 45 万 次 聚会 。 通 过 这 些 ,完全 可 以 感受 到 这 款 应 用 是 多 么 受 欢迎 。 

这 些 聚 会 并 不 仅 限 于 谈论 技术 ,人 们 还 会 为 徒步 旅行 .登山 .旅游 .环境 相关 、 实 想 等 活 
动 聚集 在 一 起 。 所 有 这 一 切 为 我 们 提供 了 一 个 绝妙 的 机 会 .分 析 世 界 各 地 举行 的 聚会 。 当 
然 , 类 似 的 事情 也 发 生 在 其 他 渠道 组 织 的 活动 中 。 

那么 问题 是 ,我 们 要 获取 什么 ? 怎样 获取 呢 ? 我 们 所 需要 的 就 是 从 meetup. com 收集 
数据 的 参数 (endpoint) 。 具 有 丰富 功能 的 Meetup API 能 使 我 们 获取 有 关 Meetup 的 数据 ， 
例如 Meetup 的 群 组 ,类 别 、 活 动 以 及 为 Meetup 完成 的 RSVP 等 。 目 前 有 许多 可 用 于 不 同 
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版 本 API 的 参数 。 如 果 有 兴趣 了 解 Meetup API. 可 用 的 文档 就 在 https://www. meetup. 
com/meetup_api 中 。 只 有 很 少 一 部 分 端点 是 公共 的 ,可 以 不 经 授权 就 调用 ;其 余部 分 需要 
提供 API 密 钥 。 本 章 稍 后 将 介绍 如 何 调用 这 些 端点 。 将 获取 的 数据 归 为 如 下 几 类 ; 
Meetup 的 类 别 ; 

。 热门 城市 ; 

。 群 组 ; 

。 开放 的 活动 ; 

。 RSVP 统计 ; 

。 话 题 ; 

。 活动 场所 。 

用 于 分 析 的 数据 不 限于 此 。 我 们 只 选择 了 可 以 公开 获得 或 适用 于 更 大 体 量 的 数据 ,而 
没有 获取 任何 用 户 或 活动 的 具体 内 容 。 


12.2 环境 模 建 


就 像 任 何其 他 情况 一 样 ,需要 设置 Elasticsearch、Logstash 和 Beats( 其 一 或 两 者 ) ,以 及 
用 于 可 视 化 的 Kibana。 需 要 一 些 特定 的 东西 才能 从 Meetup 那里 获取 数据 , 玉 手 的 事情 是 
用 Logstash 还 是 Beats? 或 两 者 的 组 合 ? 

有 一 个 为 Logstash 开发 的 输入 插件 ,可 以 读 取 Meetup 数据 ,但 这 对 我 们 来 说 还 不 够 ， 
因为 我 们 想 要 读 取 更 多 的 数据 ,因此 需要 另外 选择 工具 。 这 里 也 没有 合适 的 Beat 可 从 
Meetup 获取 数据 。 

现 有 的 插件 可 以 访问 如 下 网 站 来 获取 : 


https://github.com/logstash-plugins/logstash-input-meetup/ 
Elastic 官网 也 在 如 下 网 站 : 
https://www.elastic.co/guide/en/logstash/5.1/plugins- inputs-meetup .html 


中 记载 了 这 个 插件 。 这 种 插件 使 用 以 下 参数 之 一 来 获取 Meetup 活动 数据 : 

。 venue_id: 可 以 指定 多 个 ID ,用 逗号 分 隔 。 

。 group_id: 可 以 指定 多 个 ID, 用 逗号 分 隔 。 

。 group_urlname: 到 meetup. com 的 群 组 的 路 径 。 

这 个 插件 带 来 的 限制 是 只 能 为 所 选 的 place_ids .group_ids 等 参数 获取 数据 。 选 择 它们 
是 因为 要 知道 从 哪些 群 组 或 场所 收集 数据 。 但 是 ,我 们 想 做 更 多 的 事情 (如 上 一 节 所 述 , 我 
们 和 希望 为 Meetup 群 组 、 活 动 . 场 所 以 及 类 别 .主题 和 其 他 相关 详细 信息 获取 数据 ) 。 我 们 想 
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分 析 整 个 城市 .整个 国家 的 数据 ,或 者 可 能 是 世界 的 数据 ,看 看 发 展 趋势 如 何 。 类 似 于 
Logstash 中 的 twitter 插件 ( 它 人 允许 使 用 关键 字 进 行 搜索 ,然后 收集 推 文 ) ;但 是 如 果 想 要 获 
取 所 有 推 文 的 流 式 传输 , 则 需要 更 改 插件 代码 。 当 现 有 的 代码 不 能 用 于 满足 新 的 要 求 时 ,已 
实现 的 插件 需要 更 改 才 可 以 派 上 用 场 。 

因此 ,我 们 不 得 不 去 寻求 另 一 种 解决 方案 
获取 城市 数据 并 生成 大 量 事件 来 进行 分 析 。 

我 们 需要 创建 一 个 Beat 或 Logstash 输入 插件 来 满足 需要 。 如 前 所 述 ,Meetup API 可 
用 于 收集 数据 。 为 了 保持 简单 的 架构 ,并 在 分 析 过 程 中 关注 更 多 信息 ,在 本 章 中 ,将 为 
Logstash 编写 一 个 输入 插件 ,并 跳 过 使 用 Beats 的 步骤 。 





可 以 获取 更 多 数据 的 解决 方案 ,从 而 可 以 















































最 终 , 我 们 的 架构 如 下 图 所 示人 。 
logstash-input-meetup-plugin 
个 
Filters Output ” 厂 Elasticsearch 
Codec Logstash 
Meetup API Kibana 

















如 果 不 得 不 做 以 下 事情 ,我 们 会 转 而 开发 Beats 组 件 : 
。 从 多 个 服务 器 收集 数据 ;在 这 种 情况 下 , 轻 量 级 的 Beats 组 件 可 以 提供 很 多 帮助 ,但 
是 我 们 不 会 从 多 个 服务 器 收集 数据 。 只 有 调用 Meetup API 才能 收集 数据 ,因此 不 
需要 多 个 数据 接收 端 。 
。 做 额外 的 处 理 ,设计 字段 ,接着 使 用 Beats 组 件 来 收集 数据 ,并 使 用 Logstash 进行 处 
理 。Logstash 的 插件 能 同时 负责 数据 的 收集 和 处 理 , 因 此 不 再 需要 Beats 组 件 。 
我 们 将 开发 用 于 Logstash 的 插件 , 它 将 使 用 Meetup API 读 取 数 据 ; 我 们 将 解析 数据 
以 准备 事件 ,并 将 其 发 送 到 Elasticsearch 索引 中 ,然后 使 用 Kibana 面板 对 这 些 数据 进行 分 
析 。 我 们 使 用 的 Elastic Stack 版 本 是 v5. 1. 1。 





12.2.1 理解 Meetup API 


Meetup API 是 多 个 版 本 (vl1、v2 和 v3) 的 组 合 . 其 示例 请 求 URL 如 下 所 示 : 


@ 译 者 注 : 原纸 介质 图 书 上 未 有 此 图 ,但 电子 版 上 有。 这 里 采用 电子 版 的 内 容 。 
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https://api.meetup.com/2/cities?country=IN&page=200 


二 = 人 一生 
© © 


。 A; 这 是 实际 的 Meetup API 主机 ,一 个 安全 的 URL。 
。 B: 这 是 REST 服务 方法 参数 。 在 前 面 的 例子 中 ,/2/cities 方法 为 指定 的 参数 传递 
了 城市 数据 。 
。 C: 包含 参数 B 所 必需 的 输入 参数 以 及 订单 信息 或 页 面 大 小 (结果 数量 )。 例 如 ,在 
前 面 的 URL 中 ,国家 参数 将 用 于 获取 其 中 的 城市 ,最 多 返回 200 个 结果 。 
不 是 所 有 的 方法 (method) 都 可 以 在 没有 密 钥 的 条 件 下 使 用 。 如 果 想 要 获取 有 关 活动 
的 信息 ,需要 提供 API 密 钥 进行 授权 。 要 获得 密 钥 , 应 在 meetup. com 上 创建 账户 ,然后 从 
以 下 URL 获取 密 钥 : 


https://secure.meetup.com/meetup api/key/ 


一 旦 有 了 密 钥 ,就 应 将 密 钥 作为 一 个 参数 ,之 后 再 添加 另 一 个 参数 ,其 参数 名 称 为 sign， 
其 值 设 置 为 true。 例 如 获得 印度 城市 Ahmedabad 的 公开 活动 的 网 址 如 下 所 示 : 


https://api.meetup.com/2/open_events? country=ingcity=ahmedabad&key=<your- key 


-here>&sign=true 


请 注意 ,在 参数 key 的 后 面 ,还 添加 了 sign 二 true, 这 被 称 为 signed URL。 这 种 signed 
URL 的 概念 在 下 面 给 出 的 链接 中 提供 了 解释 。 


https://www.meetup.com/meetup api/auth/#keysign 


几 个 能 被 插件 使 用 的 服务 参数 如 下 表 所 示 : 

















要 获取 的 内 容 参数 
城市 /2/cities 
类 别 /2/categories 
活动 /2/open_events, /2/events 
群 组 /2/groups 
话题 /topics 
场所 /2/open_venues, /2/venues 





端点 用 于 满足 API 的 vl 和 v2 版 本 。 
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12.2.2 搭建 Elasticsearch 


通过 提供 唯一 的 节点 名 称 、 主 机 名 等 来 设置 Elasticsearch 是 一 个 好 习惯 。 为 此 ,修改 
配置 文件 config/elasticsearch. yml: 


node.name: es-node 
network.host: 192.168.0.102 
http.port: 9200 


对 于 简单 的 设置 ,只 保留 一 个 Elasticsearch 节点 。 运 行 以 下 节点 : 

$ ./bin/elasticsearch 

Elasticsearch 现在 已 经 准备 就 绪 , 应 该 已 经 能 够 正常 收 到 由 Logstash 发 来 的 数据 。 
12.2.3 准备 Logstash 

要 从 Meetup 收集 数据 ,我 们 开发 了 一 个 插件 。 这 个 插件 可 以 在 GitHub 网 站 中 找到 ， 
链接 是 : 


https://github .com/kravigupta/mastering-elastic-stack-code-files/tree/5.1.1/ 
Chapter12/1ogstash- input-meetupplugin 


可 以 下 载 插件 并 将 其 安装 到 Logstash 中 。 如 果 要 安装 和 测试 此 插件 ,请 执行 以 下 命令 
来 下 载 gem 文件 。 


$ ./bin/logstash- Plugin install /path/to/logstash- inPut - meetuPPlugin -0.1. 
0.gem 





仿 要 了 解 更 多 信息 ,可 参考 第 3 章 探索 Logstash 及 其 组 件 中 插件 的 命令 行 操作 部 
分 的 安装 插件 中 介绍 的 内 容 。 





我 们 需要 了 解 如 何 使 用 插件 以 及 可 能 要 求 的 必要 配置 。 该 插件 的 开发 用 于 收集 不 同城 
市 的 数据 .Meetup 的 活动 .场所 、 群 组 .话题 以 及 类 别 。 人 们 可 能 不 愿意 手动 收集 所 有 的 数 
据 , 因 此 插件 提供 了 配置 选项 ,以 便于 编写 Logstash 配置 文件 。 该 插件 甚至 允许 仅 提 供 国 
家 代码 ,并 收集 首选 城市 的 数据 。 我 们 来 看 一 下 可 以 配置 哪些 参数 。 

。 countryCode: String 类 型 , 必 选 项 。 该 参数 指定 应 收集 哪些 数据 的 国家 代码 。 这 是 

ISO 国家 代码 ,最 多 两 个 字符 。 这 些 代 码 也 可 以 在 https://countrycode. org/ 网 站 
获得 。 这 是 一 个 必 填 字段 。 如 果 缺 少 这 部 分 信息 ,插件 将 无 法 正常 工作 。 
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人 @ 访 插件 不 允许 同时 为 多 个 国家 /地 区 的 取 数据 。 但 是 ,可 以 提供 不 同 的 
countryCode 多 次 运行 Logstash 来 完成 数据 疏 取 。 











。 key: String 类 型 , 必 选 项 。 该 参数 是 一 个 必需 的 参数 ,需要 访问 Meetup API。 可 以 
从 本 章 前 面 所 述 的 https://secure. meetup. com/meetup_api/key/ 中 的 会 议 网 站 
获取 。 

。 interval: Integer 类 型 ,可 选项 ,默认 值 为 900。 在 收集 Meetup 数据 的 过 程 中 ,该 参 

数 表 示 等 待 下 一 次 迭代 完成 的 时 间 间 隔 。 这 种 设置 也 确保 了 Meetup 不 会 将 我 们 的 
操作 视 为 恶意 请 求 ,进而 封禁 我 们 的 访问 。 此 外 ,Meetup 数据 不 会 频繁 变化 ,因此 
也 可 以 根据 需要 ,设置 更 长 的 间隔 时 间 。 

。 cityNames: String 类 型 ,可 选项 ,默认 值 为 空 。 该 字段 用 来 指定 要 收集 数据 的 城市 。 

如 果 没 有 指定 ,插件 会 自动 获取 指定 国家 的 N 个 首选 城市 ,其 中 N 是 citiesCount 
指定 的 值 。 

可 以 使 用 国家 ,城市 和 州 的 名 称 来 获取 Meetup 数据 ,state 参数 是 可 选 的 。 如 果 调 用 
Meetup API 来 获得 一 个 国家 的 城市 , 则 州 名 不 总 是 出 现在 响应 中 。 调 用 API 获取 城市 信 
息 的 响应 内 容 详 见 https://secure. meetup. com/meetup_api/docs/2/cities/ # response。 

调用 API, 通 过 城市 名 称 来 查找 一 个 州 的 时 候 , 返 回 的 数据 会 清楚 地 显示 包含 指定 城市 
的 州 名 。 在 候 取 城市 数据 时 ,例如 获取 Meetup 活动 数据 ,如 果 响 应 信息 中 包含 州 名 , 则 必 
须 指定 州 名 。 因 此 ,在 指定 要 疏 取 数据 的 城市 名 时 ,应 该 同时 指定 州 名 。 可 以 在 指定 城市 名 
时 使 用 以 下 两 种 格式 : 

。 对 于 没有 州 的 国家 ,请 仅 使 用 逗号 分 隔 的 城市 名 称 。 例 如 : 


cityNames: "Ahmedabad,Pune,Bangalore,Chennai" 


。 对 于 有 州 的 国家 ,城市 名 称 也 应 附加 : statecode 参数 。 例 如 : 


cityNames: "New York:NY,Chicago:IL,Washington:DC" 


在 这 里 ,New York 是 城市 名 称 , NY 是 州 名 。 同 样 ,IL 是 芝加哥 市 所 在 的 州 名 ,DC 
是 华盛顿 所 在 的 州 名 。 

。 citiesCount: Integer 类 型 ,可 选项 ,默认 值 为 5。 仅 当 未 指定 cityNames 时 才 使 用 此 
字段 ,并 且 只 收集 该 参数 指定 数量 的 城市 数据 。 

。 enableTopics: Boolean 类 型 ,可 选项 ,默认 值 为 false。 该 参数 表示 是 否 应 收集 话题 
相关 数据 。 作 为 参考 ,话题 请 求 的 响应 内 容 详 见 https://secure. meetup. com/ 
meetup_api/ docs/find/topics/# response。 


。 enableVenues: Boolean 类 型 ,可 选项 ,默认 值 为 false。 该 参数 表示 是 否 收集 活动 场 
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所 相关 数据 。 作 为 参考 ,活动 场所 请 求 的 响应 内 容 详 见 https://secure. meetup. 
com/meetup_api/docs/2/open_venues/ 并 response。 

。 enableGroups: Boolean 类 型 ,可 选项 ,默认 值 为 false。 该 参数 表示 是 否 收集 meetup 
群 组 相关 的 数据 。 作 为 参考 , 群 组 请 求 的 响应 内 容 详 见 https://secure. meetup. 
com/meetup_api/docs/2/groups/# response。 

。 enableCategories: Boolean 类 型 ,可 选项 ,默认 值 为 false。 该 参数 表示 是 否 应 收集 类 

别 相关 的 数据 。 作 为 参考 ,类 别 请 求 的 响应 内 容 详 见 https://secure. meetup. com/ 

meetup_api/docs/2/categories/ # response。 

enableMeetup: Boolean 类 型 ,可 选项 , 默认 值 为 true。 该 参数 表示 是 否 收 集 

meetups(events) 相 关 的 数据 。Meetup 活动 请 求 的 完整 响应 内 容 详 见 https:// 

secure. meetup. com/ meetup_api/docs/2/open_events/#response。 上 默认 情况 下 ,该 

字段 设置 为 true; 这 是 插件 的 核心 。 

因为 要 收集 多 个 国家 的 数据 ,因此 需要 在 配置 中 不 断 更 改 countryCode 的 值 ,并 逐次 运 
行 Logstash。 

这 个 配置 将 为 插件 提供 API 密 钥 和 10 分 钟 的 时 间 间 隔 。 

如 果 仅 为 少数 城市 候 取 数据 , 则 对 美国 的 配置 如 下 所 示 : 


input { meetupplugint{ 
countryCode =>"US" 
cityNames =>"Chicago:IL,Washington:DC,Houston:TX,NewYork:NY" 


}} 


对 于 活动 场所 、 群 组 和 聚会 中 的 所 有 项 目 , 每 个 城市 只 需要 一 个 API 即 可 调用 。 因 此 ， 
为 了 获得 首选 的 10 座 城 市 的 数据 ,程序 中 将 进行 30 次 API 调用 。 因 为 meetup. com 每 小 
时 只 允许 200 次 调用 ,所 以 需要 进行 适当 的 规划 ,以 免 用 尽 API 调用 次 数 , 收 到 报错 信息 。 

每 个 群 组 都 有 一 些 相关 的 话题 ,总计 其 数量 可 以 达到 几 百 个 。 每 个 话题 都 可 以 提供 成 
员 数 量 的 信息 ,这 对 我 们 的 规划 而 言 是 一 个 很 好 的 衡量 标准 。 然 而 ,每 个 主题 需要 调用 一 个 
API, 这 是 不 可 行 的 ,因此 在 前 面 的 配置 中 ,话题 的 部 分 被 禁用 。 

群 组 .聚会 和 活动 场所 等 位 置信 息 具 有 相关 的 纬度 和 经 度 ,可 以 用 这 样 的 信息 在 地 图 上 
显示 数据 。 需 要 进行 调整 ,才能 画 出 一 幅 地 图 。 纬 度 和 经 度 转换 为 位 置 对 象 已 经 在 插件 中 
提供 ,只 需要 使 用 过 滤器 来 处 理 其 他 工作 。 过 滤器 配置 如 下 所 示 : 

filter { 


mutate { 
add field =>["[geoip] [location] [lat]","%{[location[lat]}"] 
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add field =>["[geoip] [location] [lon]","%${[location[lon]}"] 


} 


在 这 里 ,使 用 mutate 过 滤器 并 添加 了 字段 geoip ,在 位 置 字段 中 选择 一 些 字段 ,这 些 字 
段 已 经 被 添加 到 插件 的 活动 对 象 中 。 
除了 这 个 配置 ,还 需要 指定 Elasticsearch 的 输出 : 


output { 
elasticsearch { 
hosts =>"localhost :9200" 
index =>"meetup" 
document type =>"meetup data" 
doc as upsert =>true 
document id =>"%{document id}" 
template =>"/Users/ravi.gupta/templates/meetup-template.json" 
template name =>"meetup-template" 


template overwrite =>"true" 


请 注意 ,已 将 doc_as_upsert 指定 为 true, 并 指定 了 document_id 字段 。Meetups 不 是 
日 志 事 件 ,我 们 需要 做 的 是 更 新 现 有 的 聚会 活动 场所 、 群 组 或 任何 其 他 数据 。 

该 插件 使 用 document_id 字段 名 来 存储 文档 的 唯一 ID。 要 强制 Elasticsearch 更 新 文 
档 的 ID 字段 ,需要 使 用 document_id 字段 .并 提供 插件 使 用 的 ID 字段 ,这 在 配置 中 指定 
为 %{document_id)} 。 

参数 geoip 需要 三 行 配置 来 作为 模板 。 只 需要 将 模板 内 容 复制 到 某 个 位 置 ,并 提供 这 个 
模板 。 模 板 的 示例 内 容 可 以 在 如 下 地 址 找到 : logstash-5. 1. 1/vendor/bundle/jruby/1. 9/ 
gems/logstash-output-elasticsearch-5. 4. 0-java/lib/logstash/outputs/elasticsearch/ elasticsearch- 
templatees5x. json。 

复制 这 个 文件 , 放 在 一 个 位 置 并 重 命 名 ,例如 meetup-template. json。 打 开 文件 并 将 模 
板 字段 的 值 从 logstash* 更 改 为 meetup * ,这 是 我 们 的 索引 模式 。 

执行 以 下 命令 启动 Logstash: 


$ ./bin/logstash -f conf/meetup.conf 


现在 ,Logstash 将 开始 从 meetup. com 中 获取 数据 ,并 存储 在 Elasticsearch 的 索引 中 。 
之 后 就 可 以 在 Kibana 中 可 视 化 这 些 数据 。 


Pe 
a 精通 Elastic Stack 











人 @ 请 注意 ,要 获取 多 个 国家 的 数据 ,请 更 改 配 置 中 的 countryCode 并 再 次 运行 
Logstash, 以 此 对 每 个 国家 重复 一 次 。 数 据 越 多 ,可 视 化 和 分 析 的 效果 就 越 好 。 











12.2.4 搭建 Kibana 


在 配置 Kibana 时 ,需要 在 config/kibana. yml 配置 文件 中 指定 Elasticsearch 运行 所 占 
用 的 端口 ,如 下 所 示 : 


elasticsearch.url: "http://192.168.0.102:9200" 
server.name: "Kibana-node- stack" 


Kibana 一 经 搭建 和 配置 , 即 可 开始 对 传人 的 数据 执行 可 视 化 。 在 Kibana 的 安装 目录 
中 运行 以 下 命令 : 

$ ./bin/kibana 

此 处 有 一 个 需要 理解 的 地 方 一 一 插件 添加 了 一 个 附加 字段 来 标识 文档 的 类 型 ,该 字段 
是 meetup_data_type, 它 被 分 配 到 以 下 参数 之 一 : 

。 meetup: Meetup 活动 ; 

。 group: Meetup 群 组 ; 

。 venue: Meetup 活动 场所 ; 

。 topic: Meetup 话题 ; 

。 category: Meetup 类 别 。 

将 Kibana 中 的 过 滤器 应 用 于 数据 来 执行 可 视 化 时 ,这 些 字 段 将 非常 有 用 。 


12.3 ”使 用 Kibana 分 析 数 据 


当 Kibana 启动 并 运行 时 , 即 可 开始 可 视 化 Meetup 数据 。 使 用 Kibana 之 前 ,需要 配置 
其 中 的 索引 。 在 Elasticsearch 中 的 索引 名 称 是 meetup ,是 在 Logstash 的 输出 配置 中 指定 
的 ,现在 就 来 设置 Kibana 中 的 索引 模式 。 转 到 Kibana | Management | Index Patterns | 
Configure an Index PatternCKibana | 管理 | 索引 模式 | 配置 索引 模式 ) .或 单 击 Add New 来 添 
加 新 索引 。 添 加 该 索引 模式 ,并 将 @timestamp 字段 指定 为 时 间 字 段 名 称 。 





人 也 可 以 使 用 * 作为 通配符 ,并 以 meetup * 来 匹配 相关 的 索引 。 因 为 只 有 一 个 索 
引 , 并 且 知 道 它 是 meetup, 所 以 不 需要 使 用 通配符 。 这 也 有 助 于 保持 数据 的 准确 
性 ,以 防 与 其 他 具有 相同 模式 的 索引 混淆 ,例如 meetup-india、meetup-us 等 。 
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单 击 创建 (Create) ,该 索引 的 索引 模式 将 以 下 图 所 示 的 方式 被 创建 : 


Configure an index pattern 


# Index contains time-based events 
© Use event times to create index names [DEPRECATED] 


Index name or pattern 


meetup 


Time-field name @ refresn fielos 
@timestamp 





In order to use Kibana you must configure at least one index pattern. Index patterns are used to identify the 
Elasticsearch index to run search and analytics against. They are also used to configure fields. 


Patterns allow you to define dynamic index names using * as a wildcard. Example: logstash-* 





完成 此 操作 将 添加 索引 模式 ,索引 meetup 中 的 所 有 字段 field 将 与 其 类 型 type 一 起 


列 出 。 


12.3.1 内 容 过 滤 


索引 模式 一 经 设置 ,Discover 页 面 将 铺 满 各 类 事件 信息 。 默 认 情 况 下 ,该 页 面 将 显示 所 


有 类 型 的 数据 ,如 Meetup 活动 .场所 群 组 .类 别 等 。 





New Se Open Tore Reporing DJnuary12h2017. 00294951IDJonuary 12th2017 00.5923098| 
区 kibana ~ 


Ce 
Te 


ay taen 7017, 的 四 .397 jp io， “139.613007", 


ar len 2017, 00:57:30.597 


ar rn 2 3 


auary Tn 2017, 00:57:39.597 


Jay V2 2017. 92000578 -Jonaary Van 2017, 00.5923.008 — B20 2aconch 











从 上 图 中 可 以 看 到 有 很 多 字段 出 现在 Discover 界面 左 侧 的 面板 中 ,这 些 字段 都 是 数据 
中 存在 的 唯一 字段 。 可 以 使 用 字段 的 值 来 完成 数据 搜索 .快速 过 滤 及 检查 字段 是 否 存在 等 
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操作 。 

在 这 种 界面 中 ,一 个 字段 可 以 公平 地 出 现在 多 种 类 型 的 数据 中 。 例 如 ,名 称 的 信息 可 以 
出 现在 Meetup 活动 ,场所 和 群 组 中 。 还 有 其 他 字段 也 是 这 样 ,如 纬度 (lat) 和 经 度 (lon)。 
如 果 想 在 地 图 上 绘制 Meetup 活动 的 分 布 情况 ,那么 只 需要 识别 与 Meetup 活动 相关 的 信 
息 。 在 这 种 情况 下 ,meetup_data_type 字段 将 是 有 帮助 的 ,可 以 使 用 过 滤器 将 其 中 一 种 类 型 
的 数据 清楚 地 分 离 出 来 。 大 多 数 可 视 化 应 用 仅 使 用 一 种 数据 类 型 ,例如 ,Meetup 事件 相关 
的 可 视 化 仅 使 用 包含 值 meetup 的 meetup_data_type 字段 。 同 样 ,meetup_data_type 也 将 
被 设置 为 活动 场所 。 

要 添加 过 滤器 ,可 以 参考 下 述 步 骤 进 行 可 视 化 处 理 : 

(1) 将 在 meetup_data_type 字段 上 使 用 过 滤器 ,并 在 此 可 视 化 中 设置 其 值 为 meetup 。 
转 到 Kibana | Discover 界面 ,并 在 字段 列表 中 选择 字段 meetup_data_type, 然 后 选择 


meetup。 


下 kibana 


回 picover 


Visualize 


Dashboard 


Timelion 


[A 


Management 





(2) 选择 带 有 加 号 (十 ) 的 放大 镜 图 标 , 这 将 为 查询 添加 一 个 过 滤器 。 而 在 程序 后 台 , 执 
行 的 则 是 如 下 所 示 的 代码 : 


{ 
"query": { 
"match": { 
"meetup data type": { 
"query": "meetup", 


"type": "phrase" 
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(3) 搜索 框 下 方 会 添加 一 个 过 滤器 ,其 中 注 明 了 meetup_data_type:"meetup" 





(4) 在 界面 中 固定 此 过 滤器 ,以 便 可 以 直接 使 用 它 来 进行 可 视 化 : 





全 国定 过 滤器 是 十 分 有 用 的 ,这 样 可 以 便于 访问 Kibana 的 任何 一 个 标签 ,这 个 过 
滤器 始终 可 用 。 





该 过 滤器 将 被 应 用 于 所 有 可 视 化 内 容 , 并 且 会 相应 地 对 过 滤器 进行 更 改 。 

现在 已 经 准备 好 ,可 以 开始 对 数据 执行 可 视 化 了 。 我 们 将 在 人 气 、 计 数 、 加 入 模式 等 方 
面 对 活动 . 群 组 场所、 类 别 执行 可 视 化 。 从 国家 的 meetup 使 用 量 开始 ,我们 来 看 看 可 视 化 
的 效果 。 
12.3.2 按 国家 统计 Meetup 使 用 量 


假设 已 经 为 多 个 国家 运行 了 Logstash, 现 在 为 此 创建 一 个 可 视 化 ,执行 以 下 步 又 : 
(1) 在 内 容 过 滤 (Filtering Content) 部 分 中 指定 meetup_data_type: meetup'。 
(2) 转 到 Kibana | Visualize | New( 位 于 顶 栏 ) ,并 选择 直方 图 (Vertical bar chart) 。 


(3) 在 “选择 新 建 的 索引 ”(From a New Search,，Select Index, 如 下 图 所 示 ) 部 分 中 选择 
已 配置 的 索引 为 meetup。 





A kibana 


Visuallze / Step / 2 


From a New Search, Select Index 





Or, From a Saved Search 


A Soved Soarehes Filter of0 Manage Saved 
Name- 


Searches 
Name~ 
meetup 


No matching saved searchesfound 





(4) 添加 metrics 指标 ,使 用 它 可 以 绘制 出 条 形 图 。Y 轴 已 设置 为 计数 聚合 ,将 其 保留 
原样 ,并 为 Y 轴 添 加 自 定义 标签 (Number of meetups, 如 下 图 所 示 ) 作 为 meetup 使 用 量 。 
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(5) 使 用 metrics 下 方 的 buckets 部 分 将 bucket 添加 到 表 中 ,从 bucket 列表 中 选择 X 轴 。 
(6) 选择 Aggregation( 聚 合 ) 类 型 为 词 项 (Terms, 如 下 图 所 示 ) 。 

(7) 选择 字段 Field 为 “country. keyword”( 如 下 图 所 示 ) 。 

(8) 由 于 可 能 有 五 个 以 上 的 国家 ,所 以 需要 将 大 小 设置 为 5 以 上 。 这 里 设置 为 10。 
(9) X 轴 buckets 如 下 图 所 示 。 


metric Number of Meetups 


order Ske 
Descendng $$ 10 


custom Label 





(10) 现在 已 完成 图 表 的 所 有 设置 , 单 击 索 引 名 称 下 面 的 Data 和 Option 选项 卡 旁边 的 
“Apply Changes”( 应 用 更 改 ) 图 标 , 它 是 如 下 图 所 示 的 播放 按钮 。 


(11) 可 视 化 内 容 将 类 似 于 如 下 图 所 示 。 





Number of meetups by country 


© YNumber ofMeetups 


,500 


| 
l 国 四 _ 
Country 


上 


Number of Meetups 








第 12 章 案例 分 析 一 Meetup '379, 





从 该 图 中 可 以 看 到 国家 代码 所 代表 的 不 同 国家 的 数据 。 
12.3.3 世界 前 10 座 使 用 Meetup 的 城市 


前 面 的 可 视 化 是 在 国家 级 别 执行 的 ,有 时 可 能 需要 进一步 查看 首选 城市 以 及 Meetup 
活动 活跃 的 地 方 的 详细 信息 ,而 这 种 可 视 化 仅 适用 于 有 数据 的 国家 。 如 果 有 所 有 国家 的 数 
据 , 这 将 是 一 个 准确 而 完善 的 可 视 化 。 下 面 分 几 个 步骤 修改 可 视 化 设置 ,来 获取 城市 而 不 是 
国家 的 数据 : 

(1) 按照 "内容 过 滤 ?部 分 中 的 步骤 来 设置 meetup_data_type: 'meetup'。 

(2) 试 试 另 一 种 可 视 化 。 转 到 Kibana | Visualize | New( 位 于 顶 栏 )| 选择 Line Chart 
(折线 图 ) ,选择 索引 模式 为 meetup 。 

(3) 将 Y 轴 指标 设 为 Count( 计 数 ) .并 将 其 标注 为 “Number of Meetups”(Meetups 次 数 ) 。 

(4) 对 于 X 轴 上 的 buckets ,设置 Aggregation( 聚 合 ) 的 方式 为 Terms( 词 项 ) ,选择 字段 
city. keyword ,并 将 Size 设置 为 10。 

(5) 将 此 bucket 的 标签 设 为 City 并 应 用 或 按 Enter 键 ,此 时 可 以 看 到 当时 首选 城市 中 
meetup 活动 的 数量 统计 ,如 下 图 所 示 。 


Top 10 meetup Cities_Line_Chart 
230 © @Number OfMeetups 


上 
日 
和 
名 
E 
这 





从 该 可 视 化 统计 图 中 可 以 看 出 ,Yokohama( 横 滨 ) 举 办 meetup 活动 的 数量 是 最 多 的 。 

如 果 稍 加 注意 ,就 会 发 现 折线 图 中 的 Y 轴 的 数值 不 以 零 开 始 ,而 是 以 170 开始 。 可 以 
使 用 可 视 化 选项 卡 中 的 任何 选项 来 设置 这 些 内 容 。 在 Data( 数 据 ) 选 项 卡 中 可 以 对 指标 和 
bucket 进行 设置 ,而 Options( 设 置 ) 选 项 卡 可 对 图 表 进 行 更 多 操作 。 对 于 不 同类 型 的 统计 
图 表 , 在 Options 选项 卡 中 提供 的 设置 项 不 尽 相 同 。 在 这 里 的 折线 图 设置 中 ,可 以 看 到 设置 
立轴 范围 的 选项 ,如 下 图 所 示 。 

请 注意 ,对 于 Y 轴 的 范围 ,已 将 最 小 值 设 置 为 170, 最 大 值 设 为 230。 该 值 是 基于 对 数 
据 的 观察 设置 的 , 即 任何 一 座 城市 中 meetup 活动 的 最 大 数量 不 超过 230, 最 小 数量 不 小 
于 170。 
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12.3.4 按 持续 时 间 分 析 Meetup 发 展 趋势 


这 个 分 析 可 以 帮助 我 们 了 解 大 多 数 聚 会 的 持续 时 间 。 这 是 一 个 重要 的 指标 , 它 清 
楚 地 显示 了 Meetup 活动 理想 的 持续 时 间 ,该 可 视 化 操作 将 使 用 持续 时 间 字 段 中 的 值 。 
默认 情况 下 ,持续 时 间 字 段 以 毫秒 为 单位 ,应 该 将 其 转换 为 分 钟 或 小 时 ,以 获得 更 好 的 
可 读 格式 。 可 以 使 用 脚本 字段 (scripted fields) 来 做 到 这 一 点 ,添加 脚本 字段 的 步骤 如 
下 所 示 : 

(1) 转 到 Kibana | Management | Index Patterns | Scripted Fields | Add Scripted 
Fields 。 

(2) 将 字段 命名 为 meetupDuration(In Minutes) 。 

(3) 使 用 Painless 脚本 语言 。 要 了 解 更 多 关于 Painless 脚本 的 信息 ,请 参阅 第 8 章 
Elasticsearch API。 

(4) 将 以 下 脚本 添加 到 脚本 字段 中 : 


doc['duration'] .value/ (1000 * 60) 


这 将 获取 索引 文档 中 持续 时 间 字 段 的 值 .并 将 其 除 以 (1000 * 60), 将 毫秒 转换 为 
分 钟 。 

(5) 将 其 他 所 有 内 容 保 留 为 默认 值 ,然后 选择 Create Field”( 创 建 字段 )。 

按照 以 下 步 又 使 用 该 字段 进行 可 视 化 : 

(1) 按照 “内 容 过 滤 ? 部 分 中 的 步骤 来 设置 meetup_data_type: "Imeetup'。 

(2) 转 到 Kibana | Visualize | New( 位 于 顶 栏 ) | 选择 直方 图 (Vertical bar chart) 。 选 
择 索引 模式 为 meetup。 
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(3) 将 Y 轴 的 指标 设置 为 Count( 计 数 ) ,并 将 其 标注 为 “Number of Meetups”。 
(4) 对 于 X 轴 上 的 buckets, 设 置 聚合 的 方式 为 Range( 范 围 )。 选 择 字 段 meetupDuration 
(In Minutes) ,并 添加 适当 的 范围 。 配 置 如 下 图 所 示 。 





buckets 
加 xms Ex | 
Aggregation 
Range $ 
Field 
meetupDuration(In Minutes) $ 
From To 
1 60 日 
61 120 日 
121 180 日 
181 300 日 
301 600 日 
601 1200 日 








(5) 应 用 所 做 的 上 述 更 改 , 可 以 看 到 Meetup 活动 在 所 选 持续 时 间 范 围 内 的 数量 分 布 ， 
如 下 图 所 示 。 


Number of meetups by duration range by Country_New 
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从 该 可 视 化 统计 图 中 可 以 看 出 ,大 部 分 Meetup 活动 都 是 61 一 120 分 钟 的 时 长 , 绝 大 多 
数 Meetup 活动 时 长 在 1 一 3 个 小 时 的 范围 内 。 

(6) 进一步 修改 每 个 国家 的 统计 图 。 下 面 添 加 “Split Bars” 类 型 的 子 bucket。 在 子 聚 
合 (Sub Aggregation) 中 选择 词 项 (Terms) .并 将 其 字段 设置 为 country. keyword。 配 置 应 
如 下 图 所 示 。 
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(7) 应 用 所 做 的 上 述 更 改 , 可 视 化 统计 图 将 类 似 于 下 图 所 示 的 内 容 。 


Number of meetups by duration range by Country_new 


Number of Meotups 








Meetup Duratlon In Minutes 











可 以 看 到 ,现在 每 个 国家 的 Meetup 活动 数量 统计 都 相互 释 加 了 。 


(8) 如 果 要 将 堆 释 的 条 更 改 为 分 组 ,可 以 将 选项 中 条 形 模式 的 值 更 改 为 grouped (分 


组 )。 更 改 后 ,该 可 视 化 统计 图 如 下 图 所 示 。 





Number of meetups by duration range by Country_new_Grouped 


NumBor of Wootups 





Meetup Duration in Minutes 
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从 第 一 个 持续 时 间 范 围 可 视 化 统计 图 中 不 难看 出 ,世界 各 地 的 大 多 数 Meetup 活动 都 
不 到 3 小时。 现在 ,可 以 从 最 后 一 张 统计 图 中 不 同 国家 的 Meetup 活动 数据 中 看 出 ,在 印 
度 ,大 多 数 Meetup 活动 时 间 都 超过 了 3 小 时 。 


12.3.5 按 RSVP 计数 统计 Meetup 使 用 量 


类 似 于 Meetup 活动 的 持续 时 间 ,可 以 按 以 下 步骤 ,对 这 种 范围 使 用 RSVP@ 计数 ,并 查 
看 Meetup 活动 完成 了 多 少 个 RSVP: 

(1) 按照 “内容 过 滤 ? 部 分 中 的 步骤 来 设置 meetup_data_type: 'meetup'。 

(2) 转 到 Kibana| Visualize|New( 位 于 顶 栏 ) ,选择 直方 图 (Vertical bar chart) ,选择 索 
引 模式 为 meetup 。 

(3) 将 立轴 指标 设 为 Count( 计 数 ) .并 将 其 标签 设 为 “Number of Meetups”( 聚 会 
次 数 ) 。 

(4) 对 于 X 轴 上 的 buckets ,设置 聚合 的 方式 为 Range( 范 围 ) ,接着 选择 字段 yes_rsvp_ 
count, 并 添加 适当 的 范围 。 可 以 设置 从 一 个 正 数 到 500 及 以 上 的 各 种 范围 。 

(5) 单 击 应 用 更 改 ,yes RSVP 数据 ( 即 成 功 邀 请 数量 ) 将 按照 定义 好 的 范围 绘制 出 来 ， 
如 下 图 所 示 。 








可 以 看 到 ,大 多 数 Meetup 活动 邀请 都 会 收 到 少 于 10 个 回复 ,此 数据 仅 适用 于 即将 
举办 的 Meetup 活动 。 与 以 前 的 可 视 化 内 容 类 似 , 这 里 也 可 以 进一步 划分 每 个 国家 的 
数据 。 


@ 译 者 注 : R.S.V.P 是 法 语 Repondez sil vous plait 的 缩写 ,表示 活动 参与 者 接 到 邀请 后 ,无 论 能 否 出 席 均 应 尽快 
回复 。 
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12.3.6 国家 分 组 统计 


查看 可 用 数据 中 每 个 国家 的 群 组 数量 统计 ,可 以 通过 执行 以 下 步 又 来 完成 : 

(1) 按照 “内容 过 滤 ? 部 分 中 的 步骤 来 设置 meetup_data_type: 'group'。 

(2) 转 到 Kibana| Visualize| New( 位 于 顶 栏 ) | ,选择 饼 图 (Pie chart) ,选择 索引 模式 为 
meetup。 

(3) 将 其 中 的 metrics( 指 标 ) 和 Slice size( 层 数 ) 的 聚合 方式 设置 为 Count( 计 数 ) ,并 将 
其 标注 为 "Number of groups”( 群 组 数量 )。 

(4) 在 buckets 中 添加 Split Slices( 拆 分 ) 的 聚合 ,方式 设置 为 Terms( 词 项 ) ,并 将 选择 
字段 country. keyword。 

(5) 设置 Size 为 10, 单 击 运行 按钮 ;将 得 到 一 个 关于 国家 的 饼 图 。 





12.3.7 加 入 群 组 的 模式 统计 


可 以 进一步 分 析 基 于 加 入 模式 的 群 组 数量 ,加 入 模式 可 以 显示 出 群 组 或 国家 中 社交 的 
开放 或 限制 程度 。 以 下 是 加 入 模式 的 三 种 类 型 : 

。 开放 : 可 以 找到 并 加 入 这 些 群 组 ,并 且 不 需要 批准 。 

。 需要 批准 : 该 模式 允许 查找 和 加 入 群 组 ,但 成 员 资格 需要 群 组 管理 员 批 准 。 

。 封闭 : 只 能 由 管理 员 添加 。 

再 向 这 个 以 国家 分 组 的 饼 图 中 添加 一 个 外 层 , 这 可 以 通过 执行 以 下 步骤 来 实现 : 

(1) 在 buckets 中 再 添加 一 个 Split slices 聚合 ,方式 设置 为 Terms, 并 设置 字段 为 join_ 
mode. keyword 。 


(2) 单 击 应 用 更 改 , 可 以 看 到 更 新 后 的 饼 图 如 下 图 所 示 。 
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从 上 面 的 图 表 中 可 以 看 出 ,大 部 分 Meetup 群 组 都 是 开放 的 ,这 是 一 件 好 事 。 它 可 以 让 
你 立即 加 入 群 组 ,并 进一步 加 入 群 组 举办 的 Meetup 活动 。 

(3) 如 果 想 为 图 表 添 加 不 同 的 风格 (不 只 是 饼 图 ) ,也 可 以 添加 环形 饼 图 。 打 开 Options 
选项 卡 ,并 选中 Donut 复 选 框 ,之 后 单 击 应 用 更 改 , 饼 图 将 转换 为 环形 饼 图 ,如 下 图 所 示 。 





12.3.8 热门 类 别 


所 有 的 Meetup 群 组 都 与 某 些 类 别 有 关 。 根 据 我 们 的 数据 ,可 以 找到 最 受 欢迎 的 热门 
类 别 。 如 果 有 兴趣 了 解 这 些 类 别 下 Meetup 群 组 的 确切 数量 ,可 以 使 用 数据 表 (Data 
table) 。 生 成 类 别 表 格 的 步骤 如 下 : 

(1) 按照 “内容 过 滤 ? 部 分 中 的 步骤 来 设置 meetup_data_type: 'group'。 

(2) 转 到 Kibana| Visualize| New( 位 于 顶 栏 ) ,选择 数据 表 (Data table) ,选择 索引 模式 
为 meetup。 

(3) 将 其 中 的 Metrics 聚合 方式 设置 为 Count, 并 将 其 标注 为 “Number of groups”。 
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(4) 在 Buckets 中 添加 Split rows 的 聚合 ,方式 设置 为 Terms, 并 将 字段 设置 为 
category_name. keyword。 

(5) 由 于 要 了 解 前 20 大 类 别 ,所 以 将 Size 设 为 20, 并 将 其 标签 设置 为 Category Name 
(类 别名 称 )。 

(6) 单 击 应 用 更 改 ,界面 中 将 生成 一 个 数据 表 , 如 下 图 所 示 。 








可 以 看 到 ,tech( 技 术 ) 是 最 受 欢迎 的 类 别 , 而 在 5600 余 个 Meetup 群 组 之 中 ,tech 与 大 
于 1000 的 群 组 数量 是 对 应 的 。 

如 果 进 一 步 分 析 国 家 中 的 类 别 ,可 以 为 字段 country. keyword 再 添加 Split row 和 
Terms 聚合 。 这 样 的 设置 将 生成 如 下 图 所 示 的 数据 表 。 


Category :QQ CountysQ Number of Groups - 
tech in 456 
tech 0 192 
tech mn 156 
tach on 153 
tech 上 106 
career/business 上 203 
career/business n 202 
areerfbusines a 109 
caroerusiness 95 
careerbusiness ip 47 











前 两 个 类 别 显示 了 一 个 惊人 的 事实 。 美 国 是 一 个 Meetup 用 户 数量 最 多 的 国家 ,但 大 
多 数 聚 会 都 不 是 有 关 技 术 的 类 别 :印度 对 技术 方面 表现 出 了 很 高 的 兴趣 。 

甚至 可 为 类 别 生 成 标签 云 ,就 像 为 主题 所 做 的 那样 。 这 里 只 需 遵循 用 于 话题 地 图 的 相 
同步 又 ,将 meetup_data_type 设 为 group .并 将 聚合 字段 设 为 category_name. keyword 。 
Meetup 群 组 分 为 33 个 类 别 ,而 我 们 只 想 了 解 前 20 个 这 样 的 类 别 。 将 Size 设置 为 20, 然 后 
单 击 应 用 更 改 , 此 时 界面 中 将 生成 类 别 的 标签 云 。 

如 数据 表 所 示 ,tech( 科 技 ) 类 别 的 群 组 数量 最 多 ,这 使 得 tech 一 词 在 图 中 最 大 。 这 表明 
技术 是 最 热门 的 Meetup 类 别 。 此 外 ,如 果 仔 细 观 察 , 其 实 人 们 在 技术 (tech) 和 事业 
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community/environment 


language/ ethnic identity 
mm Car66r/businesSs 
fmess games sports/recreation 
Me tech new age/spirituality 
pt drink SOCializing 
‘dancing outdoors/adventure 
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(career) 方 面 投入 的 关注 更 多 。 
12.3.9 热门 话题 


分 析 Meetup 活动 中 的 热门 话题 是 一 个 很 好 的 例子 ,因为 这 样 可 以 展示 出 哪些 流行 语 
的 呼声 最 大 ,并 逐渐 成 为 Meetup 活动 中 的 流行 趋势 。 在 分 析 热 门 话题 这 件 事 中 ,没有 比 标 
签 云 更 好 的 可 视 化 方式 了 。 实 现 热 门 话题 在 标签 云 中 的 可 视 化 可 以 遵循 以 下 几 个 步骤 ， 

(1) 不 需要 为 此 设置 任何 过 滤器 ,因为 主题 仅 与 Meetup 群 组 相关 联 。 

(2) 转 到 Kibana| Visualize| New( 位 于 顶 栏 ) ,选择 Tag cloud( 标 签 云 ) ,选择 索引 模式 
为 Meetup。 

(3) 将 Tag size( 标 签 数 量 ) 指 标 (metric) 设 置 为 Count。 

(4) 对 于 bucket, 只 有 一 个 类 型 Tags; 选 择 这 个 类 型 ,并 设置 聚合 的 方式 为 Terms。 

(5) 每 一 个 主题 都 有 一 个 urlkey 作为 唯一 的 标识 符 , 这 对 我 们 来 说 也 是 一 个 很 好 的 关 
键 字 。 在 字段 列表 中 选择 topicsURLKeys. keyword。 

(6) 将 size 设置 为 30, 这 一 设置 将 确保 在 标签 云 中 获取 前 30 个 关键 字 。 

(7) 单 击 应 用 更 改 ,标签 云 可 视 化 将 以 下 图 所 示 的 样子 出 现 。 





computer-programming 
onglistHianguage startup-businesses 
opensource self-improvement 
和 business-strategy 


mightiife entrepreneurshin adventure 
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可 以 看 到 ,社交 网 络 之 类 的 关键 词 在 Meetup 活动 中 留 下 了 和 良好 的 印象 。 随 着 
Facebook Google 十 .Twitter Instagram 等 社交 网 络 日 益 普 及 ,企业 家 精神 也 是 人 们 正在 关 
注 的 一 件 事 , 那 就 是 建立 良性 竞争 。 而且, 人 们 正在 谈论 文化 ,灵性 、 自 我 完善 ,餐饮 等 诸多 
方面 。 标 签 云 展示 出 了 很 多 目前 正在 发 生 的 事情 ,不 是 吗 ? 

请 注意 标签 云 可 视 化 内 容 左 下 角 的 “向 上 箭头 图 标 ”(up arrow icon) 。 此 图 标 人 允许 以 表 
格 的 形式 查看 数据 ,其 中 会 列 出 十 大 热门 主题 以 及 分 页 ,如 下 图 所 示 。 











12. 3.10 ”Meetup 活动 场所 地 图 


这 个 可 视 化 将 在 地 图 上 显示 Meetup 活动 场所 。 由 于 拥有 经 度 和 纬度 ,因此 可 以 使 用 
Kibana 在 地 图 中 绘制 Meetup 活动 场所 的 统计 情况 。 在 执行 这 种 可 视 化 之 前 ,为 每 个 提 到 
的 国家 的 前 100 个 城市 运行 Logstash。 通 过 以 下 步骤 来 实现 该 可 视 化 : 

(1) 按照 "内 容 过 滤 ?部 分 中 的 步骤 来 设置 meetup_data_type: Venue'。 

(2) 转 到 Kibana| Visualize| New( 位 于 顶 栏 ) ,选择 Tile map( 瓦 片 地 图 ) ,选择 索引 模式 
为 meetup 。 

(3) 将 其 中 的 metrics 聚合 方式 设置 为 Count, 并 将 其 标注 为 "Number of venues”。 

(4) 对 于 buckets ,这 里 仅 提 供 了 一 种 选项 : Geo coordinates 。 

(5) 将 聚合 方式 设 为 Geohash ,并 将 Field 设 为 geoip. location 。 

(6) 单 击 应 用 更 改 , 将 生成 /更 新 出 Meetup 活动 场所 的 统计 情况 。 

在 地 图 上 可 以 看 到 ,圆圈 越 大 的 位 置 ,Meetup 活动 场所 就 越 多 。 还 可 以 在 Options 选 
项 卡 中 更 改 设置 ,将 相同 的 地 图 转换 为 热力 图 。 

(7) 在 Options 选项 卡 中 ,将 地 图 类 型 设置 为 热力 图 .然后 单 击 运行 按钮 。 此 时 界面 中 
将 会 生成 Meetup 活动 场所 热力 图 。 

可 以 看 到 ,颜色 较 深 的 地 区 表示 活动 场所 数量 更 多 ,而 更 多 的 活动 场所 也 可 能 代表 该 地 
区 举办 过 较 多 的 活动 。 
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12.3.11 Meetup 活动 地 图 


类 似 于 活动 场所 在 地 图 中 的 可 视 化 ,也 可 以 看 到 Meetup 活动 的 实际 位 置 。 这 种 可 视 
化 将 在 地 图 上 展示 人 们 聚会 的 地 点 。 按 照 以 下 步骤 实现 这 一 可 视 化 : 

(1) 按照 "内 容 过 滤 ? 部 分 中 的 步骤 来 设置 meetup_data_type: 'meetup'。 

(2) 转 到 Kibana| Visualize| New( 位 于 顶 栏 ) ,选择 Tile map( 瓦 片 地 图 ) ,选择 索引 模式 
为 Meetup 。 

(3) 将 其 中 的 metrics 聚合 方式 设置 为 Count, 并 将 其 标注 为 "Number of meetups”。 

(4) 对 于 buckets ,这 里 仅 提 供 了 一 种 选项 . 即 Geo coordinates 。 

(5) 将 聚合 方式 设 为 Geohash ,并 将 Field 设 为 geoip. location 。 

(6) 单 击 应 用 更 改 , 将 生成 /更 新 Meetup 活动 的 统计 情况 ,展示 各 个 Meetup 活动 的 举 
办 地 点 。 

类 似 于 以 上 这 些 ,也 可 以 在 地 图 上 显示 群 组 。 只 需要 更 改过 滤器 设置 为 meetup_data_ 
type: group, 之 后 地 图 中 将 绘制 出 群 组 统计 情况 的 可 视 化 内 容 。 


12.3.12 仅 数 量 方面 的 统计 


前 面 已 经 为 各 种 例子 都 使 用 了 可 视 化 ,事实 上 ,最 终 还 需要 知道 数据 中 具体 有 多 少 群 
组 、Meetup 活动 数量 、 活 动 的 场所 等 ,甚至 是 一 些 平均 值 。 下 面 按 照 以 下 步骤 设置 指标 实现 
可 视 化 : 

(1) 按照 内容 过 滤 ”(Filtering Content ) 部 分 中 的 步骤 来 设置 meetup_data_type: 
"meetup'。 

(2) 转 到 Kibana | Visualize | New( 位 于 顶 栏 ) ,选择 Metric ,选择 索引 模式 为 Meetup 。 

(3) 将 其 中 的 metrics 聚合 方式 设置 为 count, 并 将 其 标注 为 "Number of meetups”。 

(4) 单 击 运行 按钮 ,将 得 到 这 些 Meetup 活动 的 具体 数量 。 

(5) 将 此 可 视 化 文件 保存 为 Number of Meetups Metric 。 

(6) 将 meetup_data_type 分 别 更 改 为 venue 和 group, 可 以 按照 相同 的 步骤 对 活动 场 
所 和 和 群 组 执行 可 视 化 。 当 然 ,同时 也 应 修改 各 自 的 标签 。 

(7) 完成 后 ,可 以 将 所 有 metrics 统计 数据 添加 到 一 个 面板 中 ,此 时 这 些 可 视 化 内 容 已 
经 就 绪 , 如 下 图 所 示 。 
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可 以 看 到 ,有 大 约 5600 多 个 Meetup 群 组 ,在 约 3100 多 处 地 点 组 织 了 约 3600 多 个 
活动 。 


12.4 ”获取 通知 


分 析 数 据 内 容 是 有 目的 的 ,其 中 主要 是 出 于 战略 性 规划 。 如 果 这 个 分 析 是 由 一 个 处 理 
人 际 关系 的 公司 完成 的 , 则 可 能 有 兴趣 获取 任何 新 的 Meetup 活动 的 信息 ,以 便 了 解 到 更 多 
的 人 。 如 果 城 市 中 的 聚会 能 收 到 大 量 答复 ,那么 这 个 公司 能 联系 3 一 4 个 感 兴趣 的 人 物 。 这 
通常 在 Meetup 活动 期 间 完 成 ,有 相似 兴趣 的 人 都 会 走 到 一 起 。 假 如 想 在 任何 Meetup 活动 
创建 时 收 到 某 种 通知 ,可 以 使 用 X-Pack 的 警报 功能 一 一 Watcher 来 实现 。 这 里 的 通知 可 以 
是 日 志 、 电 子 邮 件 或 者 Watcher 支持 的 其 他 一 些 类 型 。 要 了 解 有 关 Watcher 的 更 多 信息 ， 
请 参阅 第 10 章 X-Pack 插件 中 的 Alerting、Graph 和 Reporting 组 件 。 
下 面 为 这 个 用 例 创建 一 个 watch, 需 要 schedule( 调 度 ) ,input( 输 入 ) .condition( 条 件 ) 
和 action( 操 作 ) ,用 于 发 送 通知 : 
。 schedule: 假设 程序 在 一 个 小 时 内 进行 一 次 迭代 ,并 对 数据 进行 更 新 ,将 把 调度 程序 
的 间隔 设置 为 1 小 时 。 
。 input: 将 使 用 一 个 查询 , 它 会 根据 数据 更 新 的 时 间 ( 当 前 设置 的 时 间 是 1h) ,来 检查 
一 个 城市 中 是 否 有 新 的 Meetup 活动 ,以 及 统计 yes RSVP( 邀 请 成 功 ) 计 数 大 于 100 
的 活动 。 
。 condition: 检查 命中 的 数量 是 否 大 于 零 。 
。 action: 使 用 电子 邮件 作为 通知 方式 。 
要 发 送 电子 邮件 ,应 该 将 配置 添加 到 elasticsearch. yml。 对 于 Gmail, 配 置 应 如 下 所 示 : 


xpack.notification.email.account: 
gmail account: 

profile: gmail 

smtp: 
auth: true 
starttls.enable: true 
host: smtp.gmail.com 
port: 587 
user: <username> 


password: <password> 


实际 配置 时 ,应 该 用 实际 值 来 蔡 换 用 户 名 二 username 二 和 密码 二 password 二 。 
Watcher 将 使 用 这 些 设置 并 使 用 SMTP 服务 来 发 送 邮 件 。 要 了 解 有 关 电 子 邮件 配置 更 多 
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信息 请 参阅 https://www. elastic. co/guide/en/x-pack/5. 1/actions-email. html # configuring- 


email。 
watch 应 如 下 所 示 : 
PUT xpack/watcher/watch/meetup 
{ 
“eriggor™y 
"schedule": { 
“Enteorvalrs "Lh™ 
} 
}, 
"input"s { 


"search": { 
"request": { 


"indices": [ "meetup" ], 


"body": { 
wadze"s 0， 
"query": { 
Woo 
"filter": [ 
{ 
"range": { 
"created": { "gte": "now-1h" } 
} 
} 
] 
} 
. 


}, 
"condition": { 
"compare": { 
"ctx.payload.hits.total": { 
gt"s 


}, 
"actions": { 


"email me": { 
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"throttle period": "10m"v 


"email": { 
"from": "<from-email>", 
"to": "<to-email>", 


"subject": "Watchable Meetups", 
"body": { 
"html": "New Meetups within last hour - {{ctx. payload.hits. 
total}}" 
} 


} 


如 前 所 述 , 将 时 间 间 隔 设 置 为 1 小时。 索引 名 称 与 Meetup 的 名 称 相同 ,在 watch 的 输 
入 部 分 中 指定 了 一 个 查询 , 它 会 检查 在 一 小 时 内 创建 的 Meetup 活动 ,设置 的 条 件 是 至 少 有 
一 个 Meetup 活动 被 创建 。 如 果 条 件 匹 配 ,那么 程序 将 发 送 电子 邮件 通知 。 在 from 部 分 的 
电子 邮件 地 址 与 elasticsearch. yml 配置 中 提 到 的 相同 ,to 字段 中 的 电子 邮件 地 址 是 通知 要 
发 送 的 地 址 。 

可 以 使 用 以 下 方式 来 注册 watch: 

PUT xpack/watcher/watch/meetup watch 

{ 

...Wwatch body ... 

} 

在 watch 主体 部 分 应 由 上 面 列表 中 的 watch 取代 ,它们 将 按时 执行 。 要 手动 执行 一 次 ， 
可 以 执行 以 下 命令 : 


POST xpack watcher/watch/meetup watch/ execute 


如 果 在 过 去 一 小 时 内 有 任何 Meetup 活动 被 创建 ,就 会 收 到 一 封 如 下 图 所 示 的 电子 
邮件 : 





mes.packt@gmall.com 11:33 PM (0 minutes ago) + 
~ tome 已 


New Meetups within last hour - 10 








邮件 中 提 到 ,在 过 去 一 小 时 内 创建 了 10 个 新 的 Meetup 活动 。 
这 是 一 个 非常 简单 的 watch 示例 , 它 执行 了 发 送 电 子 邮件 的 操作 。 可 以 添加 更 多 的 过 
滤器 来 检查 是 否 在 特定 城市 中 创建 了 Meetup 活动 ,或 者 成 功 邀 请 计数 超过 100 个 。 
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12.5 “本章 狼 结 


Meetup 活动 是 一 个 很 好 的 分 析 案 例 。 事 实 上 ,我们 使 用 了 多 种 可 视 化 内 容 来 了 解 
Meetup 活动 的 情况 ,了 解 了 现 有 插件 为 什么 不 能 满足 我 们 的 需求 ,还 有 定制 的 新 插件 带 来 
了 什么 新 功能 。 我 们 通常 对 问题 的 探究 总 是 很 感 兴趣 ,对 于 这 里 提 到 的 Meetup, 目 前 是 一 
个 很 流行 的 平台 , 它 有 助 于 传播 知识 和 善行 。 我 们 了 解 了 如 何 使 用 瓦 片 地 图 (tile map) 来 查 
看 大 多 数 Meetup 活动 举办 的 地 区 ;标签 云 帮 助 我 们 了 解 了 大 量 Meetup 活动 的 热门 话题 和 
类 别 。 最 后 ,我 们 看 到 了 Watcher 如 何 帮 助 我 们 收 到 新 创建 活动 的 通知 。 

Elastic Stack 提供 的 不 仅 是 我 们 在 书 中 涵盖 的 内 容 。 该 工具 集 至 今 仍 在 发 展 ,今后 也 
将 提供 更 多 值得 期 待 的 组 件 和 功能 。 我 们 希望 书 中 涵盖 的 内 容 和 案例 能 够 做 到 准确 无 误 ， 
并 对 你 有 所 帮助 ,也 希望 这 本 书 可 以 帮 你 学 习 如 何 有 效 地 利用 Elastic Stack 来 解决 实际 使 
用 中 的 问题 。 每 个 使 用 案例 都 需要 一 些 特别 的 东西 ,有 时 可 能 需要 新 的 插件 .新 的 可 视 化 ， 
或 者 完全 不 同 寻常 的 数据 分 析 方 法 。 要 根据 面 对 的 实际 使 用 场景 ,做 出 不 同 的 决定 。 

本 书 的 所 有 代码 文件 可 以 在 Github 存储 库 上 的 分 支 5. 1. 1 中 找到 , 详 见 https:// 
github. com/ kravigupta/ mastering-elastic-stack-code-files/tree/5. 1. 1。 类 似 地 ,同一 存储 库 的 
Wiki 页 面 上 提供 了 其 他 相关 和 有 用 的 内 容 或 注释 , 详 见 https://github. com/kravigupta/ 


mastering-elastic-stack-code-files/ wiki。 
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接 下 来 是 什么 ?好 吧 ,现在 故事 刚刚 开始 。 每 个 开源 软件 都 需要 贡献 者 的 支持 社区 , 任 
何 活跃 的 社区 在 学 习 和 实现 中 都 扮演 着 重要 的 角色 。Elastic 社区 https://www. elastic. 
co/community 与 维护 良好 的 论坛 https://discuss. elastic. co/ 都 非常 活跃 。 可 以 在 社区 中 
注册 ,并 分 享 你 的 知识 和 学 习 心得 。Elastic 文档 和 社区 都 会 发 布 最 新 动态 ,每 个 组 件 都 有 
一 些 IRC 频道 ,托管 在 http://freenode. net 网 站 中 。 这 些 IRC 频道 如 下 : 


。 Elasticsearch: https://webchat. freenode. net/# elasticsearch 





。 Logstash: https://webchat. freenode. net/# logstash 
。 Kibana: https://webchat. freenode. net/# kibana 
。 Beats: https://webchat. freenode. net/# beats 


这 些 频 道 都 相当 活跃 ,欢迎 加 入 到 这 个 群体 中 来 。 合 作 快 乐 ! 学 习 快 乐 ! 


